这几天很开心,很充实,好久没有遇见过能把课讲的生动形象又通俗易懂的老师了。。。
数据挖掘老师:清华博士后,课上的内容也不止数据挖掘,知识面很广,很多有意思的案例都记不清了,现在把记得的写下来,方便以后学到深层次的东西时,再来查看。
一、使用SVM求解最优解的时候为什么要转化为对偶问题求:
对偶问题保证了解的存在性
对偶问题更容易求解
二、高维空间
在SVM等机器学习的算法中,一个特征可以看成一维空间(一条线),两个特征可以看成二维空间(坐标系),三个特征也就是三维几何,比较直观,而特征多时,就是高维空间了,据老师的话:高维空间是个灾难!!!
由可得
在高维空间中,当维数趋近于无穷时,球的体积近似为1,类比空壳, 吃苹果都不敢削皮了(怕漏)。。。。
三、核函数中核的选择很重要
核的选择对结果有很大的影响
但是核的选择却没有统一的方法,大多要靠经验
四、奥卡姆剃刀准则:如无必要,勿增实体
选择最简单的方法(假设最少)来解决实际问题
当有两个处于竞争地位的理论能得出同样的结论,那么简单的那个更好
假设越少,越不像巧合
而假设越多,就越像巧合
应用:ID3/C4.5;决策树中后剪枝的最小描述长度修剪法
五、决策树的企业案例:医院看病
六、数据挖掘算法——关联规则
应用:超市物品摆放规则
七、数据挖掘算法——Apriori核心思想:(互为逆否命题)
如果一个集合是频繁项集,则它的所有子集都是频繁项集
如果一个集合不是频繁项集,则它的所有超集都不是频繁项集
频繁项集:支持度超过最小支持度的项集
八、当强规则的置信度小于推荐的先验时,强规则未必有意义(例:买衣服时都会买鞋,但是逛街买鞋的概率大于强规则的置信度,此时这个强规则未必有意义)
当两个项出现的频率相差很大的时候,强规则未必有意义(例:买了电池也买面包的置信度为1,而买面包的占总体的0.75,此时存在偶然性,强规则未必有意义)
九、谷歌的PageRank算法:根据关键字的频繁项集返回网页(小型局域网相互指向)
十、数据挖掘算法——主成分分析(PCA算法)
从一组特征中计算出一组按重要性从大到小排列的新特征,它们是原有特征的线性组合,并且相互之间是不相关的。等维变换。
十一、聚类属于无监督学习
聚类的训练集可以采用 唐老鸭,米老鼠&&辛普森
(老师解释:避免肖像权问题,并且动漫人物的表情一般幅度比较大,动漫分类都没问题,那么识别人的时候还会困难么?)
十二、K均值算法==C均值算法
K均值方法结果受初值影响,是局部最优解
十三、深度学习:深度==>多个隐含层
思考:乾坤大挪移:小的时候看电视,挪小板凳。开始时在爷爷后面看不见电视,挪挪,到了奶奶后面,再挪,到了爸爸后面,再挪,到了妈妈后面,再挪,发现可以看见电视了,不过电视已经结束了
类比深度学习的方法。。。
十四、反向传播算法——BP
隐含层导数的训练规则:像中国领导与下属的担责问题(下层人员犯错,然后根据学习率依次向上问责)【老师的形象举例】
例:
说明:Oj是由netj经过sigmoid函数求得的,所以链式求导中加了中间层,对Oj求导,方便计算
十五、反向法传播算法(传播的是误差)==>误差逆传播算法
反向的原因:中间层的目标输出未知,从前向后计算并不方便,所以由后向前推出误差
深度学习中GPU的作用:同时训练多个神经网络
使用sigmoid函数训练时,输入特征的系数的初值接近0的原因:
无论输入数据是多少,相乘求和后的结果近似0
使用sigmoid激励函数,在0处的变化剧烈,步长大,有助于快速收敛出合适的系数向量
暂时写这么多,感谢老师的倾囊相授【比心】,这里大部分知识是老师的,但是有我自己整理的,整体比较乱,如果有哪写错了,勿怪。