一、基本概念与原理:
1.学习的概念与类型:系统在执行过程中能改进性能;包括有监督、无监督、半监督、增强学习等。
2.学习的三要素:模型(产生式、判别式(包括概率分布与决策函数模型)) 策略(期望风险最小化(往往采用经验风险最小化处理)与结构风险最小化(进行正则化))、算法(最优化算法,求解最优模型)。
3.基本问题类型:分类、回归、标注、推荐、聚类、离群点分析等。
4.基本评估:训练误差、测试误差、交叉验证、泛化能力(对预测数据的误差来分析预测能力,也为泛化能力),有上界,小于训练误差。
5.基本的指标:精确率 召回率 f1值(都对二分类),此外还有准确率(不限二分类问题)。
二、基本的分类与回归模型:
1.感知机(及PLA)
2.K近邻
3.朴素贝叶斯
4.决策树(ID3、C4.5、CART)
5.logistic回归(线性回归、多维线性回归,二维logistics回归,多维logistics回归)
6.adaboost
7.SVM
8.random forests
9.神经网络(单层神经网络 多层神经网络)
10.PageRank
三、聚类算法:
1.kmeans
2.EM
3.层次聚类算法
4.SOM聚类算法
5.FCM聚类算法
四、数据挖掘方向:
1.Apriori算法
2.协通滤波
五、其他类型:
1.最大熵模型
2.隐马尔科夫模型;
3.条件随即场
4.LDA
5.PCA
6.奇异值分解
六、常见的机器学习库:
1.opencv
2.shark
3.scikit-learn
4.spark
5.R
6.Torch7
7.Matlab
8.Mahout
更多:
http://www.oschina.net/news/53818/awesome-machine-learning
(本文为基本框架初步规划,待完善)