如风过境YD-CSDN博客

原创 machine learning中的概率论名词解释

后验概率事情还没有发生，要求这件事情发生的可能性的大小，是先验概率。事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小，是后验概率，后验概率的计算，要使用贝叶斯公式。先验概率仅仅依赖于主观上的经验估计，也就是事先根据已有的知识的推断，在应用贝叶斯理论时，通常将先验概率乘以似然函数（likelihoodfunction）再归一化后，得到后验概率分布，后验概率分布即在已知给定的数据...

2020-07-07 16:47:54 244

原创 python中round()函数精度问题

python数据精度问题：import numpy as npprint(np.around(0.155, 2))print(np.around(0.005, 2))手写实现四舍五入：def round_up(number,power=0): """ 实现精确四舍五入，包含正、负小数多种场景 :param number: 需要四舍五入的小数 :para...

2020-03-19 14:42:29 1066

原创 keras编写cv模型

import tensorflow as tffrom keras.applications.inception_v3 import InceptionV3from keras.preprocessing import imagefrom keras.models import Modelfrom keras.layers import Dense,GlobalAveragePooling...

2020-01-07 10:38:29 407

原创模型评估与调参

一、通过管道创建工作流1.1 数据导入与预处理# 导入相关数据集import pandas as pdimport urllibtry: df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases' '/breast-cancer-wiscons...

2019-11-17 13:47:49 220

原创逻辑回归实例，特征预处理

给定训练集spam_train.csv，要求根据每个ID各种属性值来判断该ID对应角色是Winner还是Losser(收入是否大于50K)，这是一个典型的二分类问题。训练集介绍：(1)、CSV文件，大小为4000行X59列;(2)、4000行数据对应着4000个角色，ID编号从1到4001;(3)、59列数据中，第一列为角色ID，最后一列为分类结果，即label(0、1两种)，中间的57...

2019-11-17 09:55:47 2459 1

原创 np.dot,np.mutiply,*区别; np.array和mat的区别

np.mutiply，无论是数组还是矩阵只执行对应位置相乘，若a,b对应位置不存在，则报错np.dot当a,b为矩阵时，执行矩阵乘法，a,b需满足矩阵乘法的条件当a,b为数组时，若a,b秩为1，则执行数组对应位置相乘，最后取和若a,b秩不为一，则执行矩阵乘法*若a,b为数组，则对应位置相乘若a,b为矩阵，则执行矩阵乘法下图中a,b为数组：当a,b是矩阵时，a*b执行...

2019-10-20 10:45:11 577

原创线性模型实例

根据前九个小时的空气检测情况预测第十个小时的PM2.5的值。数据预处理对于空缺值，可以使用补全法和删除法，补全法一般填补样本均值，数据预处理的作用是将数据转变为模型可识别的数据。...

2019-09-25 22:31:56 1428 1

原创奇异值分解（SVD）

前面我们学过了PCA来降维，将数据投影到新超平面空间，主要是计算数据的协方差矩阵，然后求协方差矩阵的特征值和特征向量，将特征值按照大到小的顺序排列，然后删掉较小的特征值，将数据投影到特征空间。学过线性代数可知，方阵才能求特征值，那么当协方差矩阵不是方阵时应该怎么办呢。奇异值分解可以解决这种问题。...

2019-08-19 11:06:06 648

原创 PCA（主成分分析）

降维主成分分析（PCA（Principal Component Analysis））

2019-08-17 16:18:26 684

原创 EM（Expection-Maximization）算法

贝叶斯分类中我们考虑了样本的属性独立性假设，一对一和一对多的依赖关系，那么在实际情况中，当属性有缺失时应该怎么办呢？此时可以引入EM算法解决问题。首先来了解一下EM算法，又称期望最大化算法，算法分为两步，E步和M步，算法主要解决概率模型中含有观测变量和隐变量的样本。观测变量即给定数据已知样本属性值，可以用极大似然法或贝叶斯估计来估计模型参数，隐变量即样本的某种属性值有未知(我们知道数据可以分成两...

2019-08-13 17:44:23 431

原创 KNN(近邻)算法

然后计算空间距离欧几里得距离计算已知类别数据集中的点与当前点之间的距离;按照距离递增次序排序;选取与当前点距离最小的k个点;确定前k个点所在类别的出现频率;返回前k个点出现频率最高的类别作为当前点的预测类到。比如，现在K=4,那么在这个电影例子中，把距离按照升序排列，距离绿点电影最近的前4个的电影分别是《后来的我们》、《前任3》、《无问西东》和《红海行动》,这四部电影...

2019-08-12 15:33:01 254

原创集成学习

集成学习主要介绍了Bagging,随机森林和Boost

2019-08-12 10:54:17 114

原创聚类，K-均值算法

clusterk-means(k均值算法)层次聚类

2019-08-11 11:23:46 406

原创朴素贝叶斯分类

前面我们了解全概率公式和贝叶斯公式，如果对贝叶斯公式不太熟悉可以参考全概率公式与贝叶斯公式这篇文章。贝叶斯公式首先复习一下贝叶斯公式:假设有事件A,Bi,i=1,2,3,...,n\quad B_i,i=1,2,3,...,nBi,i=1,2,3,...,n,则在A事件发生时，BiB_iBi事件发生的概率P(Bi∣A)P\left(B_{i} | A\right)P(Bi∣A):P(...

2019-08-06 10:41:27 132

原创 Support Vector Machine 支持向量机

Linear SVM

2019-08-04 10:28:45 119

原创 CNN(Convolutional Neural Network)卷积神经网络

CNN(Convolutional Neural Network)卷积神经网络一般用于图像识别设计CNN的三个理由A neuron does not have to see the whole image to discover the pattern(只需要识别一部分)The same patterns appear in different regionsSubsampling t...

2019-07-30 17:42:26 295

原创神经网络小结

在训练神经网络的过程中，多数情况下，会遇到准确率不高的情况，不能一次获得最好的结果；一般是两种情况会导致准确率不准。1. 欠拟合欠拟合一般表现为训练集的准确率不高，这种情况下，应该：适当的增加或减少隐层的层数或者神经元的个数将原来使用的均方误差函数改为交叉熵作为损失函数将梯度下降法调参改为随机梯度下降（SGD）,等等其他效果更好的梯度下降函数如果使用的是mini-batch梯度下...

2019-07-30 08:56:38 195

原创正则化

在衡量建立模型的好坏时，我们通常使用误差函数来检测，并进行调参，以找到最好的拟合函数，使得达到误差最小化。但通常会出现这样的情况：模型在训练集上拟合的很好，而在测试集上拟合的效果较差，误差较大(过拟合)。如图：我们应该让模型拟合停在一个合适的点（Testing error最低的地方）。那么应该怎么知道Tesing set上的误差呢，我们可以使用训练集中的数据进行交叉验证（在训练集里采样验证集...

2019-07-29 17:39:37 160

原创 ReLU激活函数,Maxout

梯度消失在使用sigmoidsigmoidsigmoid激活函数进行梯度下降调参时，往往会出现梯度消失的问题，即无法找到收敛点。神经网络主要的训练方法是BP算法，BP算法的基础是导数的链式法则，也就是多个导数的乘积。而sigmoidsigmoidsigmoid的导数最大为0.25，且大部分数值都被推向两侧饱和区域，这就导致大部分数值经过sigmoidsigmoidsigmoid激活函数之后，其...

2019-07-29 15:17:21 452

原创 BP(BackPropagation)误差逆传播算法

上篇文章介绍了多层前馈神经网络，那么这种网络是怎样训练生成的呢，BP算法就是其中一种生成多层神经网络的算法，下面来了解一下BP算法。

2019-07-26 16:38:10 997

原创梯度下降法（Gradient descent）

在了解梯度下降法之前我们首先来了解一下梯度的概念梯度设函数z=f(x,y)z=f(x,y)z=f(x,y)在平面区域DDD内具有一阶连续偏导数，则对于每一点P(x,y)∈DP(x,y)\in{D}P(x,y)∈D,都可以定出一个向量∂f∂xi⃗+∂f∂yj⃗（其中i,⃗,j⃗）为单位向量\frac{\partial f}{\partial x} \vec{i}+\frac{\partial f...

2019-07-25 14:31:12 629

原创步长（学习率learning rate）

步长（学习率）在进行梯度下降法的过程中，我们需要通过调整η\etaη学习率的值来调整参数每次要走的距离。适当的调整η\etaη可以更准确的找到LLL的最小值以及参数值。下面需要注意调整步长η\etaη(往下一步要走的距离)的大小：不同大小的η\etaη可能会造成下面图中的情况一种方法是将参数的变化与函数LLL的改变的情况可视化当η\etaη太小，则L变化缓慢，对应下图中绿色线条当η...

2019-07-25 14:28:50 8321

原创初识神经网络

神经网络简介神经网络中最基本的成分是神经元(neuron)模型,在生物神经网络中,每个神经元与其他神经元相连,当它“兴奋”时，就会向相连的神经元发送化学物质,从而改变这些神经元内的电位;如果某神经元的电位超过了一个“阈值”(threshold), 那么它就会被激活,即“兴奋”起来,向其他神经元发送化学物质.类似的“M-P 神经元模型”，在这个模型中，神经元接收到来自n个其他神经元传递过来的输...

2019-07-23 17:16:05 292

原创决策树（decision tree）

决策树是一个分类的经典算法，是基于树结构来进行决策即能够做回归也能做分类。一般地，一颗决策树包含有一个根节点、若干个内部结点（非叶子结点）和若干个叶节点。如图所示，树的每个结点表示一种决策属性（选择），每个样本通过根节点通过分支往下走，最终可以得到分类结果。树的基本结构：构建决策树决策树的生成过程是一个递归过程，在决策树的基本算法中，有三种情况会导致递归返回，信息熵（informat...

2019-07-21 13:26:22 1587

原创决策树中连续型值和缺失值处理

在构造决策树时选择最优属性划分数据集时，常常会碰到一些连续型属性和一些样本的属性值缺失的情况，本篇主要介绍如何处理缺失值和连续值。

2019-07-20 21:26:36 1566

原创熵（Entropy）、信息熵增益、信息熵增率和基尼（Gini）指数

本篇主要介绍在构造决策树的过程中利用熵、信息增益、信息熵增率、Gini指数来衡量样本属性，选择结点的几种方法

2019-07-20 13:49:04 6921 1

原创全概率公式和贝叶斯公式

贝叶斯公式在机器学习中有广泛的应用，本篇文章主要讲解贝叶斯公式由条件概率和全概率公式的推导过程，以及与机器学习的相关知识。

2019-07-15 15:10:18 3377

原创线性模型（linear model）

线性模型是机器学习中最简单的模型，却蕴含着机器学习中的一些重要思想，许多功能强大的非线性模型可在线性模型的基础上通过层级结构或高维映射而得。

2019-07-12 16:51:09 9760

原创偏差（bias）与方差(variance)

偏差与方差偏差: 描述模型输出结果的期望与样本真实结果的偏离程度。方差: 描述模型对于给定值的输出稳定性。度量同样大小的训练集的变动所导致的学习性能的变化，刻画数据扰动所产生的影响偏差表示期望输出与真实标记的差别f^表示总体期望值，f*一次实验的结果(根据样本估测的值)图中Bias表示偏差，即打靶时没有瞄准中心点，Variance好比发射出去时手抖了简单模型：偏差大，方差小（简...

2019-07-11 11:04:28 893

原创 Machine learning中的常见名词解释

本篇文章主要介绍机器学习中常见的名词，如模型、标记、过拟合、欠拟合、查准率和查全率、调参，以及置信度等

2019-07-11 11:04:03 518

原创利用python + pyecharts+Pandas对北上广深等城市进行租房数据分析

本次分析的租房数据主要来源于上一篇博客中获取的“房天下”网站租房信息，对该数据分析主要使用了Pandas数据处理库。

2019-07-05 15:16:52 5050 4

原创分支与限界-旅行售货员问题

算法描述类似于回溯法，也是一种在问题的解空间树T上搜索问题解的算法。但在一般情况下，分支限界法与回溯法的求解目标不同。回溯法的求解目标是找出T中满足约束条件的所有解，而分支限界法的求解目标则是找出满足约束条件的一个解，或是在满足约束条件的解中找出使某一目标函数值达到极大或极小的解，即在某种意义下的最优解。分支搜索算法所谓“分支”就是采用广度优先的策略，依次搜索E-结点的所有分支，也就是所有相...

2019-06-20 16:25:00 5947

原创残缺棋盘问题

文章目录实验目的实验内容算法分析实验步骤实验结果实验目的了解和运用递归与分治算法解决实际问题。实验内容残缺棋盘是一个有2k×2k（k≥1）个方格的棋盘，其中恰有一个方格残缺。如图给出k=1时各种可能的残缺棋盘，其中残缺的方格用阴影表示。残缺棋盘问题就是要用这四种三格板覆盖更大的残缺棋盘。在此覆盖中要求：1）两个三格板不能重叠2）三格板不能覆盖残缺方格，但必须覆盖其他所有的方格。小格子...

2019-06-20 15:54:29 5377

原创利用Python Scrapy框架爬取“房天下”网站房源数据

分析网页“房天下”网站首页由于数据量较大，本次只获取如下图热门城市房源数据点击上图中的热门城市入口会进入该城市的首页，该网页下存放着新房、二手房以及租房的url链接。以上海为例：url=https://sh.fang.com/: 上海新房：url=https://sh.newhouse.fang.com/house/s/二手房：url=https://sh.esf.fang...

2019-06-19 12:50:19 5532 13

原创 Scrapy框架使用

Scrapy安装转载自详解Python安装scrapy的正确姿势Scrapy介绍scrapy是一个爬取网站数据，提供结构性数据而编写的应用框架，只需少量的代码，就能够快速的抓取使用了Twisted异步网络框架，可以加快我们的下载速度（区别于同步，指完成一件事之前，可以做另一件事）将所需模块封装起来，类似于多线程，同时进行下载和网站请求，同时请求多个网页模块相互之间独立全都由中心引擎来...

2019-06-19 11:00:43 111

小肥柴YD的博客