记数据挖掘课程上的知识点

最新推荐文章于 2022-06-23 20:57:06 发布

独脚行

最新推荐文章于 2022-06-23 20:57:06 发布

阅读量312

点赞数

分类专栏：算法文章标签：课程小结

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27276951/article/details/89524773

版权

算法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

这几天很开心，很充实，好久没有遇见过能把课讲的生动形象又通俗易懂的老师了。。。

数据挖掘老师：清华博士后，课上的内容也不止数据挖掘，知识面很广，很多有意思的案例都记不清了，现在把记得的写下来，方便以后学到深层次的东西时，再来查看。

一、使用SVM求解最优解的时候为什么要转化为对偶问题求：

对偶问题保证了解的存在性

对偶问题更容易求解

二、高维空间

在SVM等机器学习的算法中，一个特征可以看成一维空间（一条线)，两个特征可以看成二维空间（坐标系），三个特征也就是三维几何，比较直观，而特征多时，就是高维空间了，据老师的话：高维空间是个灾难！！！

由可得

在高维空间中，当维数趋近于无穷时，球的体积近似为1，类比空壳，吃苹果都不敢削皮了（怕漏）。。。。

三、核函数中核的选择很重要

核的选择对结果有很大的影响

但是核的选择却没有统一的方法，大多要靠经验

四、奥卡姆剃刀准则：如无必要，勿增实体

选择最简单的方法（假设最少）来解决实际问题

当有两个处于竞争地位的理论能得出同样的结论，那么简单的那个更好

假设越少，越不像巧合

而假设越多，就越像巧合

应用：ID3/C4.5；决策树中后剪枝的最小描述长度修剪法

五、决策树的企业案例：医院看病

六、数据挖掘算法——关联规则

应用：超市物品摆放规则

七、数据挖掘算法——Apriori核心思想：（互为逆否命题）

如果一个集合是频繁项集，则它的所有子集都是频繁项集

如果一个集合不是频繁项集，则它的所有超集都不是频繁项集

频繁项集：支持度超过最小支持度的项集

八、当强规则的置信度小于推荐的先验时，强规则未必有意义（例：买衣服时都会买鞋，但是逛街买鞋的概率大于强规则的置信度，此时这个强规则未必有意义）

当两个项出现的频率相差很大的时候，强规则未必有意义（例：买了电池也买面包的置信度为1，而买面包的占总体的0.75，此时存在偶然性，强规则未必有意义）

九、谷歌的PageRank算法：根据关键字的频繁项集返回网页（小型局域网相互指向）

十、数据挖掘算法——主成分分析（PCA算法）

从一组特征中计算出一组按重要性从大到小排列的新特征，它们是原有特征的线性组合，并且相互之间是不相关的。等维变换。

十一、聚类属于无监督学习

聚类的训练集可以采用唐老鸭，米老鼠&&辛普森

（老师解释：避免肖像权问题，并且动漫人物的表情一般幅度比较大，动漫分类都没问题，那么识别人的时候还会困难么？）

十二、K均值算法==C均值算法

K均值方法结果受初值影响，是局部最优解

十三、深度学习：深度==>多个隐含层

思考：乾坤大挪移：小的时候看电视，挪小板凳。开始时在爷爷后面看不见电视，挪挪，到了奶奶后面，再挪，到了爸爸后面，再挪，到了妈妈后面，再挪，发现可以看见电视了，不过电视已经结束了

类比深度学习的方法。。。

十四、反向传播算法——BP

隐含层导数的训练规则：像中国领导与下属的担责问题（下层人员犯错，然后根据学习率依次向上问责）【老师的形象举例】

例：

说明：Oj是由netj经过sigmoid函数求得的，所以链式求导中加了中间层，对Oj求导，方便计算

十五、反向法传播算法（传播的是误差）==>误差逆传播算法

反向的原因：中间层的目标输出未知，从前向后计算并不方便，所以由后向前推出误差

深度学习中GPU的作用：同时训练多个神经网络

使用sigmoid函数训练时，输入特征的系数的初值接近0的原因：

无论输入数据是多少，相乘求和后的结果近似0

使用sigmoid激励函数，在0处的变化剧烈，步长大，有助于快速收敛出合适的系数向量

暂时写这么多，感谢老师的倾囊相授【比心】，这里大部分知识是老师的，但是有我自己整理的，整体比较乱，如果有哪写错了，勿怪。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
记数据挖掘课程上的知识点

这几天很开心，很充实，好久没有遇见过能把课讲的生动形象又通俗易懂的老师了。。。数据挖掘老师：清华博士后，课上的内容也不止数据挖掘，知识面很广，很多有意思的案例都记不清了，现在把记得的写下来，方便以后学到深层次的东西时，再来查看。一、使用SVM求解最优解的时候为什么要转化为对偶问题求：对偶问题保证了解的存在性对偶问题更容易求解二、高维空间在SVM等机器...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。