机器学习基础教程
文章平均质量分 67
sun_rose
应用统计在校研究生,目前在学习有关机器学习,用Python
展开
-
**决策树基础以及Python代码实现**
决策树基础以及Python代码实现 一、一些定义: 1. 信息: 西瓜有好瓜和坏瓜,好瓜的信息为l(xi)=−log2p(xi)l(x_i)=-\log_2 p(x_i)p(xi)p(x_i)为好瓜的概率,根据-log函数的图像,如果好瓜的概率越大,信息会趋近于0,也就是从一堆瓜里选出好瓜所需要的信息量越少。 2. 信息熵:熵是信息的期望值Ent(D)=−∑k=1npklog2pkEnt(D)原创 2017-12-12 16:18:43 · 367 阅读 · 0 评论 -
决策树进阶
一、决策树基础回顾 决策树有三种算法:ID3,C4.5以及CART。ID3用的是信息增益准则,偏好于可取值数目较多的属性。C4.5介于信息增益准则和增益率准则之间,先从候选划分属性中找出信息增益高于平均水平的属性,然后从这些属性中选择增益率最大的,这样在选择结点时受属性的取值数目影响较小。CART算法则是和ID3算法异曲同工,只是衡量数据集的纯度所用的方法不一样,CART用基尼值来度量数据集的纯原创 2017-12-13 10:06:31 · 616 阅读 · 0 评论 -
线性模型
一、一般线性回归基本形式:f(x)=w1x1+w2x2+...+wdxd+bf(x)=w_1x_1+w_2x_2+...+w_dx_d+b,dd个自变量,1个因变量。 用向量形式写成:f(x)=wTx+bf(x)=w^Tx+b,其中w=(w1;w2;...;wd)w=(w_1;w_2;...;w_d). 用最小二乘法对ww和bb进行估计。 把ww和bb吸收入向量形式w^=(w;b)\hat w原创 2017-12-14 21:47:11 · 1069 阅读 · 0 评论 -
降维和度量学习
k近邻学习:给定测试样本,基于某种距离测量找到训练集上与其最靠近的k个样本,根据这k个样本的信息预测测试样本,一般用投票法。也可以用线性加权的方法,距离越远,权重越小。 算法:一般选取一个较小的数值,通常采取交叉验证的方法求最优的k值。降维:线性降维(主成分分析法)用特征值和特征向量近似还原协方差矩阵,通过选取比较大的特征值来达到降维的目的。(相似矩阵)核化线性降维首先将原始空间映射到更高维空间,原创 2017-12-24 13:09:46 · 308 阅读 · 0 评论 -
关于矩阵的直观理解
学习链接1、矩阵的乘法 2、转载 2017-12-28 11:27:12 · 532 阅读 · 0 评论 -
支持向量机
支持向量机支持向量机的基本想法就是在样本空间中找到一个划分超平面,寻求最大间隔,将不同类别的样本分开,距离超平面最近的几个训练样本点,正好在分割线上,它们称之为“支持向量”。 任意点x到超平面的距离为: r=|wTx+b|||w||r=\frac{|w^T x+b|}{||w||} 点到直线的距离为:|Ax0+By0+c|A2+B2√\frac{|Ax_0+By_0+c|}{\sqrt{A^2原创 2018-04-20 15:23:22 · 192 阅读 · 0 评论