记数据挖掘课程上的知识点

这几天很开心,很充实,好久没有遇见过能把课讲的生动形象又通俗易懂的老师了。。。

数据挖掘老师:清华博士后,课上的内容也不止数据挖掘,知识面很广,很多有意思的案例都记不清了,现在把记得的写下来,方便以后学到深层次的东西时,再来查看。

一、使用SVM求解最优解的时候为什么要转化为对偶问题求:

    对偶问题保证了解的存在性

    对偶问题更容易求解

二、高维空间

    在SVM等机器学习的算法中,一个特征可以看成一维空间(一条线),两个特征可以看成二维空间(坐标系),三个特征也就是三维几何,比较直观,而特征多时,就是高维空间了,据老师的话:高维空间是个灾难!!!

    由可得

在高维空间中,当维数趋近于无穷时,球的体积近似为1,类比空壳, 吃苹果都不敢削皮了(怕漏)。。。。

三、核函数中核的选择很重要

    核的选择对结果有很大的影响

    但是核的选择却没有统一的方法,大多要靠经验

四、奥卡姆剃刀准则:如无必要,勿增实体

    选择最简单的方法(假设最少)来解决实际问题

    当有两个处于竞争地位的理论能得出同样的结论,那么简单的那个更好

    假设越少,越不像巧合

    而假设越多,就越像巧合

应用:ID3/C4.5;决策树中后剪枝的最小描述长度修剪法

五、决策树的企业案例:医院看病

六、数据挖掘算法——关联规则

    应用:超市物品摆放规则

七、数据挖掘算法——Apriori核心思想:(互为逆否命题)

    如果一个集合是频繁项集,则它的所有子集都是频繁项集

    如果一个集合不是频繁项集,则它的所有超集都不是频繁项集

频繁项集:支持度超过最小支持度的项集

八、当强规则的置信度小于推荐的先验时,强规则未必有意义(例:买衣服时都会买鞋,但是逛街买鞋的概率大于强规则的置信度,此时这个强规则未必有意义)

    当两个项出现的频率相差很大的时候,强规则未必有意义(例:买了电池也买面包的置信度为1,而买面包的占总体的0.75,此时存在偶然性,强规则未必有意义)

九、谷歌的PageRank算法:根据关键字的频繁项集返回网页(小型局域网相互指向)

十、数据挖掘算法——主成分分析(PCA算法)

    从一组特征中计算出一组按重要性从大到小排列的新特征,它们是原有特征的线性组合,并且相互之间是不相关的。等维变换。

十一、聚类属于无监督学习

    聚类的训练集可以采用 唐老鸭,米老鼠&&辛普森

    (老师解释:避免肖像权问题,并且动漫人物的表情一般幅度比较大,动漫分类都没问题,那么识别人的时候还会困难么?)

十二、K均值算法==C均值算法

    

K均值方法结果受初值影响,是局部最优解

十三、深度学习:深度==>多个隐含层

思考:乾坤大挪移:小的时候看电视,挪小板凳。开始时在爷爷后面看不见电视,挪挪,到了奶奶后面,再挪,到了爸爸后面,再挪,到了妈妈后面,再挪,发现可以看见电视了,不过电视已经结束了

类比深度学习的方法。。。

十四、反向传播算法——BP

    隐含层导数的训练规则:像中国领导与下属的担责问题(下层人员犯错,然后根据学习率依次向上问责)【老师的形象举例】

例:

    说明:Oj是由netj经过sigmoid函数求得的,所以链式求导中加了中间层,对Oj求导,方便计算

十五、反向法传播算法(传播的是误差)==>误差逆传播算法

反向的原因:中间层的目标输出未知,从前向后计算并不方便,所以由后向前推出误差

深度学习中GPU的作用:同时训练多个神经网络

使用sigmoid函数训练时,输入特征的系数的初值接近0的原因

    无论输入数据是多少,相乘求和后的结果近似0

    使用sigmoid激励函数,在0处的变化剧烈,步长大,有助于快速收敛出合适的系数向量

 

暂时写这么多,感谢老师的倾囊相授【比心】,这里大部分知识是老师的,但是有我自己整理的,整体比较乱,如果有哪写错了,勿怪。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值