yue---fighting-CSDN博客

原创特征工程的相关操作，及其

数据预处理：（1）缺失值的时候，填充缺失值fillna:离散：None，连续：均值，缺失值太多，去除该列（2）连续值，离散化，有的模型需要离散值（3）对定量特征二值化，核心在于设定一个阈值，大于阈值的赋值1，小于等于阈值的赋值为0，（4）皮尔逊相关系数，去除高度相关的列 ...

2018-10-11 15:24:11 205

K-means算法思想：（1）K值随机初始化，簇分配，哪些离某个颜色近，就放到哪个簇里面。（2）移动聚类中心，移到某一类的平均值处，循环，再移动点，让K均值聚合 K-means++算法初始簇的中心点 1、从输入的数据点集合中随机选择一个点作为聚类中心。 2、对于数据集中的每一个点x，计算它与最近聚类中心的距离D(x) 3、选择一个新的数据点作为新的聚类中心，选择的原则是：D(x)较大的点，被选...

2018-10-11 15:14:26 272

转载 K-means算法

K-means算法思想：（1）K值随机初始化，簇分配，哪些离某个颜色近，就放到哪个簇里面。（2）移动聚类中心，移到某一类的平均值处，循环，再移动点，让K均值聚合 ...

2018-10-10 21:44:32 121

转载判别模型和生成

判别方法：由数据直接学习决策函数Y=f(x),或者由条件分布概率p（y|x）作为预测模型，即判别模型。生成方法：由数据学习联合概率密度分布函数P（x|y），然后求得条件概率分布P（Y|X）作为预测的模型，即生成模型。由生成模型可以得到判别模型，但是由判别模型得不到生成模型。常见的判别模型有：K近邻，SVM，决策树，感知机，线性回归，神经网络，逻辑回归，boosting,条件随机场常见的生成...

2018-10-10 16:42:05 149

转载熵、联合熵j、条件熵、相对熵、互信息的定义

熵：又称自信息，可以视为描述一个随机变量的不确定性的数量，它表示信源X每发一个符号，所提供的平均信息量。一个随机变量的熵越大，它的不确定性就越大，正常估计其值的可能性就越小，越不确定的随机变量越需要大的信息量用以确定其值。联合熵：描述一对随机变量平均所需要的信息量条件熵：给定随机变量X的情况下，随机变量Y的条件熵相对熵：又称为KL距离，是衡量相同事件空间里的两个概率分布相对差距的测度。...

2018-10-10 11:11:02 795

转载什么是梯度下降

1、在求解机器学习算法的模型参数，即无约束优化问题时，梯度下降（Gradient Descent）是最常采用的方法之一，另一种常用的方法是最小二乘法。梯度的方向是函数f增长最快的方向，梯度的反方向是梯度下降最快的方向对于梯度下降的解释是：比如说下山的过程中，我们不知道从哪里下山可以最快到达山脚下，这个时候求偏导，也就是求出梯度值，沿着梯度的负方向，也就是当前位置最陡峭的方向走一步，然后继续求...

2018-10-10 10:26:47 1399

原创什么是最小二乘

最小二乘法是数学优化技术是通过最小化误差的平方和寻找数据的最佳函数匹配，利用最小二乘法就可以求得未知的数据，并使这些求得的数据和实际的数据之间的误差平方和最小，以平方和达到最小来寻求估计值的方法，就叫做最小二乘法， ...

2018-10-10 09:07:07 314

原创过拟合应该如何

1、增加训练数据，或者数据增强 2、正则化 L1正则化：是n个维w的绝对值加和 L2正则化：是n个维w的平方和 L1正则化是通过向成本函数中添加L1范数，使得学习的结果满足稀疏化，方便特征提取，这个过程更像是降维， L2正则化是通过让w值整体变小，防止过拟合，提高泛化能力。 3、dropout 4、神经网络可以减少网络层数，网络中的节点数，传统的方法，降低模型的复杂度 5、早停 6、batch n...

2018-10-09 16:19:17 204

原创对于机器学习项目的流程是

1、先抽象成数学问题，指的是我们可以获得什么样的数据，目标是一个分类还是回归，或者聚类的问题，如果都不是，划归为某类问题 2、获取数据数据决定了机器学习的上限，而算法只是尽可能的逼近这个上限，要对数据的量级有一个评估，多少个样本，多少个特征，可以估算出对内存的消耗程度，判断训练过程中内存是否放得下，如果放不下，就考虑改进算法或者用降维的技巧，如果放不下，要考虑分布式 3、特征预处理与特征选择 ...

2018-10-09 14:46:33 98

原创对于k-means和KNN中两种距离的差别是什么？

欧式距离是通过计算两个点或者多个点之间的距离表示法，比如x=(x1,…,xn)和y=(y1,…,yn)之间的距离，但是有个缺点，它会把样本点中的不同的属性之间的差别同等看待，这一点是不能满足实际需求的曼哈顿距离，比如说是坐标系中的两个点分别向横坐标和纵坐标投影的和。|x1-x2|+|y1-y2| ...

2018-10-09 09:49:03 1481

原创面试题总结（2）——机器学习哪些算法需要归一化

机器学习中需要归一化的算法有SVM,逻辑回归，神经网络，KNN,线性回归，而树形结构的不需要归一化，因为它们不关心变量的值，而是关心变量分布和变量之间的条件概率，如决策树，随机森林，对于树形结构，它的数值缩放不影响分裂点的位置，对树模型的结构不造成影响。树模型的构造是通过寻找最优分裂点构成的，而且树模型不能进行梯度下降，因为树模型是阶跃的，阶跃是不可导的，并且求导没意义，也不需要归一化。 2、对于...

2018-10-09 09:40:24 1783

原创百面机器学习——模型

1、准确率的局限性答：准确率的定义是正确样本占总样本的比例。但是当样本分布不均衡的时候，占比大的类别往往成为影响准确率的主要因素。为了解决这个问题，使用有效的平均准确率（每个类别下的样本准确率的算术平均）作为评估指标 2、精确率和召回率的权衡答：精确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例，召回率是指分类正确的正样本的个数占真正的正样本的个数比例。F值是调和精确率和召回率...

2018-10-05 10:30:25 721 1

u014535528的博客