机器学习
文章平均质量分 68
lcvcl
对算法感兴趣
展开
-
朴素贝叶斯分类
朴素贝叶斯分类在数据稀疏的情况下准确率依旧较高,可适用于多分类。用于标称型数据(离散型)。实质:通过样本属性值在每个类别的概率,计算输入数据在每个类别的概率,取其概率最大的为样本类别。总结朴素贝叶斯流程:1.计算样本中每个属性值在该类别上的条件概率P(xi|c)2.根据输入数据的属性值对计算好的概率(分类别)做乘法运算(如将属性值对应的概率相乘)计算属性在该类别上的联合概率P(x|c)为什么分类别...原创 2018-03-26 10:42:42 · 1146 阅读 · 2 评论 -
线性回归
使用已知样本集通过训练得到由属性线性组合的函数来进行预测。其一般形式为:y=wx+bx:为样本属性w:为每个属性的权值b:为偏置值线性回归一般有三个重要模块1.映射函数:直线、多项式、高斯分布、对数几率回归等2.代价函数:平方和误差函数3.求解最小值方法:梯度下降、模拟退火等求解损失函数的最小值映射函数为了解决数据不是线性分布的问题将数据进行升维或者降维,可以通过对数据的观测来确定,其可能将某个特...原创 2018-05-09 16:05:10 · 588 阅读 · 0 评论 -
ID3决策树
ID3算法流程简单版1.计算每个特征的熵2.选择熵最小的特征,根据其特征值对数据划分3.去除上步被选择的特征,在每个分支数据集中,重复1,2,3直到数据集不能或不用再次划分详细版1.计算整个数据集的熵H2.选取最好的数据集划分方式(这里指选取熵最小的特征,亦为去除该特征后数据集熵最小的特征) a.计算除去已经被使用的特征和正在被计算的特征的数据集的熵Hk(k为当前被计算熵的特征值) b...原创 2018-03-19 15:16:27 · 664 阅读 · 0 评论 -
KNN-k临近算法
使用Peter的机器学习实战学习了knn算法此算法核心思路为:1.算出测试点与所有训练点直接的距离(两点直接的距离公式,如果是多个点参照两点直接的距离公式)2.为所有距离进行升序排列3.取排序完毕的前k个点对其标签进行统计,最多的那个则为对应的标签使用书上0-9数据集(每个数字都有接近200个样本)进行训练和测试的时候发现,k为3时最佳,k变大时错误率会上升,越大错的越多因为数据的某两个属性的差值...原创 2018-03-12 14:27:04 · 343 阅读 · 0 评论 -
C4.5决策树
C4.5算法C4.5算法(增益率准则)偏好于取值数目少的特征C4.5决策树算法流程:简单版:1.计算每个特征的信息增益率2.选择增益率最高的特征,根据其特征值对数据划分3.去除上步被选择的特征,在每个分支数据集中,重复1,2,3直到数据集不能或不用再次划分详细版:1.计算整个数据集的熵Ent2.选取最好的数据集划分方式(这里指选取信息增益率最高的特征,亦为去除该特征后数据集增益率最高的特征) ...原创 2018-05-24 10:50:40 · 4451 阅读 · 0 评论 -
CART决策树
CART决策树使用基尼系数选取用来划分数据集的特征原创 2018-05-24 15:39:50 · 3038 阅读 · 0 评论 -
正则化
正则化:作用:选择经验损失(风险)函数和模型复杂度都小的模型(模型复杂可能过拟合,缓解过拟合)一般形式:经验损失函数+正则化项,λ大于等于0用于调整二者之间的关系在经验损失函数小时(经验损失大小取决于于训练误差,模型很好的拟合了训练数据),模型可能很复杂(有多个非零系数),这时正则化项的复杂度(值)会变大。 正则化项一般使用Lp范数,一般使用模型参数(线...原创 2018-07-17 19:28:22 · 643 阅读 · 0 评论