机器学习
文章平均质量分 88
shelmi
focus
展开
-
决策树笔记
1.ID3算法只考虑信息增益(information gain),而对于特征中有类似编号这种唯一标识性的特征的数据来说,ID3算法会把这一特征设为最优划分属性,因为根据这一属性就能让每个分支包含的样本最少而且都是同类的,这样导致决策树不具有泛化能力。原创 2016-10-27 00:00:28 · 376 阅读 · 0 评论 -
机器学习-线性回归python简单实现
写下这篇博客只是为了当做一个记录记下来,以后可以回头看看,不至于每遇到一次都要去实现一遍。线性回归的主要内容如下:因为要最小化J,有两种方法,一种是最小二乘法直接求解,另一种是梯度下降法。这里记录的是梯度下降法。梯度下降法可以归结为NG课程中以下的图片:所以线性回归梯度下降法的主要核心就在于对theta的更新,以下是本文代码,代码比较粗糙原生,容易理解。数据集用的其原创 2016-12-14 21:35:24 · 1098 阅读 · 0 评论 -
Cross-Validation概述
Cross Validation概述 在同一个数据集上对训练好的模型进行重复测试从方法上来说就是一种错误。这样生成的模型对它重复看到的样本标签有一个完美的预测分数,但是却不能预测到未知数据中任何有用的东西。这种情况就叫做过拟合(overfitting)。避免过拟合的方法一般是把训练数据集中的一部分数据分割出来作为测试集。通过这个测试集就可以知道模型的泛化能力以及是否过拟合。这就好比一个学生在做数学原创 2017-03-25 18:02:02 · 3341 阅读 · 0 评论 -
Spark机器学习-1
本文讲述了spark2..0+中机器学习的基本名词和流程,并附上java代码进行解释原创 2017-05-11 20:29:00 · 537 阅读 · 0 评论 -
win10下Spark java读取Hbase数据
本文采用spark2.1+hadoop2.7.3+Hbase1.3.0的配置,在hbase shell中插入数据,然后用java把这些数据读入到spark rdd中原创 2017-05-09 14:31:17 · 2798 阅读 · 2 评论