学习目标:
一天机器学习学习内容:
机器学习基本算法:
1. 决策树(分类)
根据一些 feature(特征) 进行分类,每个节点提一个问题,通过判断,将数据分为两类,想到了数据结构里的树和软件工程流程图。
2. 随机森林:随机森林是一个包含多个决策树的分类器(集成学习:独立并联的结构)
在源数据中随机选取数据,组成几个子集:
S矩阵是源数据,有1-N条数据,A、B、C 是feature,最后一列C是类别:
由S随机生成M个子矩阵:
这M个子集得到 M 个决策树:将新数据投入到这M个树中,得到M个分类结果,计数看预测成哪一类的数目最多,就将此类别作为最后的预测结果
3. 逻辑回归:只适应于线性
当预测目标是概率这样的,值域需要满足大于等于0,小于等于1的。
线性回归:y=kx+b,预测预估 多特征值:特征工程。
训练进度:损失函数:(预估-实际)的平方和(小)
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型。P(0-1)线性回归上套用的概率。
训练进度(小):
判断概率
4. 支持向量机 (分类)
5. 朴素贝叶斯(分类模型):情感分类上,常用于文本分类,条件概率。
P(A)称为"先验概率"(Prior probability)
P(A|B)称为"后验概率"(Posterior probability)
P(B|A)/P(B)称为"可能性函数"(Likelyhood)
不能保证每个事件独立。
6. K近邻算法(推荐系统)周围人喜欢什么你喜欢什么?
也是分类,但是只是局部分类,待测样本点周围进行分类,主要就是K的选择。
理论上,K值越大,范围越大,待策决定点越多。
7. Adaboost:自适应增强算法(集成学习:顺序的结构重权重,解决困难样本;天花板高,但慢啊)
是 Boosting 的方法之一。Boosting就是把若干个分类效果并不好的分类器综合起来考虑,会得到一个效果比较好的分类器。
8. K均值算法
先要将一组数据,分为三类,粉色数值大,黄色数值小 。最开始先初始化,这里面选了最简单的 3,2,1 作为各类的初始值 。剩下的数据里,每个都与三个初始值计算距离,然后归类到离它最近的初始值所在类别。
9. 神经网络:监督类算法
模型可以有更多的结构,但是难又慢
丢掉一点不必要的信息。
10. 马尔科夫(增强学习:试错)
Markov Chains由state(状态)和transitions(转移)组成。例子,根据这一句话 ‘the quick brown fox jumps over the lazy dog’,要得到markov chains。
生成随机文本吧。
分类:
- 监督式学习:数据都标了
回归:逻辑和线性
分类:决策树,随机森林,支持向量机,贝叶斯
神经网络 - 非监督式学习:没标
聚类算法(K-Means(K均值)聚类,EM算法等 - 半监督式学习:部分标了
- 强化学习:马尔科夫:让他自己试错