十大经典模型
在正式开始之前我们先来看一下十大经典的机器学习模型,这些模型给后来的机器学习发展奠定了基础,后续的发展也总能看到它们的影子,
- 分类算法:C4.5,朴素贝叶斯(Naive Bayes),SVM,KNN,Adaboost,CART。(有监督学习,有label)
- 聚类算法:K-Means,EM。(无监督学习,无label)
- 关联分析:Apriori。(啤酒和尿布放在一起销量更好的经典案例)
- 连接分析:PageRank。(找节点与边,获得对应权重)
在此也列出常用算法所使用的工具包,以便后续查阅:
算法 | 工具 |
---|---|
决策树 | from sklearn.tree import DecisionTreeClassifier |
朴素贝叶斯 | from sklearn.naive_bayes import MultinomialNB |
SVM | from sklearn.svm import SVC |
KNN | from sklearn.neighbors import KNeighborsClassifier |
Adaboost | from sklearn.ensemble import AdaBoostClassifier |
K-Means | from sklearn.cluster import KMeans |
EM | from sklearn.mixture import GMM |
Apriori | from efficient_apriori import apriori |
PageRank | import networkx as nx |
贝叶斯定理
贝叶斯是为了解决“逆向概率”问题而提出来一种方法,后来被我们称之为贝叶斯定理。他想找出一种方法:尝试在没有太多可靠证据的情况下,怎样做出更加符合数学逻辑的推测?
正向概率,比较容易理解,比如我们已经知道袋子里面有N 个球,不是黑球就是白球,其中M个是黑球,那么把手伸进去摸一个球,就能知道摸出黑球的概率是多少 => 这种情况往往是上帝视角,即了解了事情的全貌再做判断。
逆向概率,贝叶斯则从实际场景出发,提了一个问题:如果我们事先不知道袋子里面黑球和白球的比例,而是通过我们摸出来的球的颜色,能判断出袋子里面黑白球的比例么?
先验概率,通过经验来判断事情发生的概率。
后验概率,就是发生结果之后,推测原因的概率。
条件概率,事件A 在另外一个事件B已经发生条件下的发生概率,