Data Mining: Theory and Algorithms 笔记第一章：走进数据科学：博大精深，美不胜收

最新推荐文章于 2023-06-03 09:06:34 发布

Daaliang

最新推荐文章于 2023-06-03 09:06:34 发布

阅读量1.3k

点赞数

分类专栏： MOOC Data Mining

MOOC Data Mining 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

走进数据科学：博大精深，美不胜收

整装待发

Educationis the kindling of a flame, not the filling of a vessel. --Socrates

A teacherwho is attempting to teach without inspiring the pupil with a desire to learnis hammering on cold iron. --Horace Mann

期货（Futures）：期货与现货完全不同，现货是实实在在可以交易的货（商品），期货主要不是货，而是以某种大众产品如棉花、大豆、石油等及金融资产如股票、债券等为标的标准化可交易合约。因此，这个标的物可以是某种商品（例如黄金、原油、农产品），也可以是金融工具。

学而不思则罔

UCI：包含很多公开的数据集

WEKA：开源免费的数据挖掘软件

KDnuggets：数据挖掘网站

Tell me and I forget. Teach me and Iremember. Involve me and I learn. –BenjaminFranklin

The value of a college education is not thelearning of many facts but the training of the mind to think. –Albert Einstein

知行合一

什么是大数据？

l High-volume High-velocity High-variety

High-volume：数据量大

High-velocity：实时大量的数据流

High-variety：非结构化

l 超过传统处理数据的能力的数据

大数据分析的实际应用

l 公共安全

l 医疗保健领域：个性化医疗

两个问题：under treatment, under treatment

l 城市规划

l 移动用户：使用位置提供服务

l 顾客的购物信息

l 精准销售

l 情感分析

l 社交网络

l MONEYBALL

从数据到知识

理想的数据挖掘成果应当：

Interesting,Useful, Hidden

SPSS

SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称。

分类问题

Classification

分类其实就是找到类的Boundaries，Boundaries应该是平滑的（下图黑色线），不应该造成过分类Overfitting（下图绿色线）。

分类的时候使用的训练集和测试集应该是不同的集合。

混淆矩阵

ROCCurve (Receiver Operating Characteristic)受试者工作特征曲线

评价指标 AUC(AreaUnder Curve)：指示ROC曲线下方的面积，约大越好，理想为1。

CostSensitive Learning

False Positive, False Negative哪一个的危害更大？或者使用权重来评价。

LiftAnalysis

使用模型相对不使用模型的提升度，用来评价一个模型实际使用时候的效率。

聚类（clustering）及其它数据挖掘问题

Clustering、Classifying区别：

Clustering是unsupervisedlearning，Classifying是supervised learning。Clustering中样本是没有标签的，如好人、坏人等。

层次型聚类（HierarchicalClustering）

有些时候需要在不同层次进行聚类，就像在海外大家都是中国人，就是一个group。但是回到中国就不一样了，你有大陆的香港的台湾的，然后大陆又分各个省到一个省，又分各个市一个市又分各个县。

AssociationRule关联规则

使用关联规则来判断买了A产品的用户会不会购买B产品。

线性回归

线性回归的函数整体不一定是线性的，线性的意思是β乘以x的几次方，而不是指y对x是线性的。

线性回归中也存在Overfitting Regression过度回归的问题。

中间的回归是最优曲线，左边过于简单，右边过于复杂。

数据可视化 Seeingis Knowing

用可视化的方法1、辅助研究者选择使用什么样的方法挖掘数据，或者2、为客户展示结果。

可视化软件推荐：

数据预处理Data Preprocessing

数据挖掘中最具有挑战性的部分。数据可能存在问题，例如某些数据缺失，或者部分数据不符合实际。

隐私保护与并行计算

PrivacyProtection

在保护用户隐私的前提下，获取调查数据。某个调查问卷的设计方法：

CloudComputing

云计算的实质：Pay as you go 只在使用的时候购买这种服务，而不用一开始一次性购买全部基础设施。

ParallelComputing

利用GPU进行并行计算（不是打游戏）。

MobileComputing

运算装置非常微小却性能强大，可以在便携的前提下进行超级计算。

TheBig Picture

数据 + 算法（模型） + 运算（算力）

NoFree Lunch

没有万能的数据挖掘算法，选择哪个算法以及算法中的具体参数需要根据具体情况而定。

迷雾重重

1、 通过数据挖掘进行预测的可能性

股票（影响因素过度复杂）、彩票（数据随机生成）都很难或不能用数据挖掘进行预测。

2、 数据挖掘时，对数据进行的分类可能导致完全不同的结论

例如：横坐标是户外运动的时间，纵坐标是一个人身体强壮的程度。那么你会觉得根据常理，户外活动时间越长体格应该越强壮，但这里图示表达的含义其实是恰恰相反的。如果你宏观上来看，如果这些是老年人上面是年轻人，年轻人即便它户外活动时间比较少，因为都忙着工作，它的体格也要强于老年人。但是在老年组当中，如果经常锻炼的这些老年人，它的体格还是会比不经常锻炼的老年人的体格要强。所以你不能只宏观地去看问题，这样你会得到非常荒谬的一个结论。但是你要把它分开看的话，就合情合理了。

3、 数据之间的相关性和数据之间的因果没有必然联系

Video Game Sales呈增加趋势，其他犯罪指数呈现降低趋势。能说明暴力游戏的销售能够降低犯罪率吗？不能。如果将暴力游戏曲线换位中国GDP或者我个人的收入，也是呈上升趋势，但是显然这和美国暴力犯罪没有多大联系。所以数据之间的相关性和数据的因果没有必然联系。

4、 Tricky？

理性无法解释的数据所表现的事实，背后可能隐藏着感性因素。例如：身高和人能否成功（智商、情商等）没有必然联系，但是背后隐藏了人们更倾慕身高较高者这一事实。解释数据分析的结果时要充分考虑到这些问题。

5、 幸存者偏差（Survivorship bias）

经典案例：

1940年左右，在英国和德国进行的空战中，双方都损失了不少轰炸机和飞行员。因此当时英国军部研究的一大课题就是：在轰炸机的哪个部位装上更厚的装甲，可以提高本方飞机的防御能力，减少损失。由于装甲很厚，会极大的增加飞机的重量，不可能将飞机从头到尾全都用装甲包起来，因此研究人员需要做出选择，在飞机最易受到攻击的地方加上装甲。

当时的英国军方研究了那些从欧洲大陆空战中飞回来的轰炸机。如上图所示，飞机上被打到的弹孔主要集中在机身中央，两侧的机翼和尾翼部分。因此研究人员提议，在弹孔最密集的部分加上装甲，以提高飞机的防御能力。

这一建议被美国军队统计研究部的统计学家AbrahamWald否决。Wald连续写了8篇研究报告，指出这些百孔千疮的轰炸机是从战场上成功飞回来的“幸存者”，因此它们机身上的弹孔对于飞机来说算不上致命。要想救那些轰炸机飞行员的性命，更正确的方法应该是去研究那些被打中并坠毁的轰炸机。只有研究那些没有成功返航的“倒霉蛋”，才能有的放矢，找到这些飞机最脆弱的地方并用装甲加强。Wald的建议后来被英国军方采纳，挽救了成千上万的飞行员性命。

6、 维度缺失

图中根本没有提及时间维度的信息，所以图中的点根本不知道按什么顺序查看。个人感觉不仅是从右往左还是从左往右的问题，这张图甚至可能只是某一个固定具体时刻的数据，因为没有时间维度，所以根本无法解读品牌的发展趋势。

思考：如何拨开迷雾，获得数据反映的真实信息？

1、（针对迷雾1）考虑数据是否有挖掘价值？是否具有挖掘出目标信息的可能性？

如果本来就没有挖掘的意义，或者没有挖掘出结果的可能性，所有的努力都会是徒劳。

2、（针对迷雾2、5）迷雾2是指只从宏观分析问题时可能造成的错误结论，迷雾5是指只从部分分析问题时可能造成的错误结论。这说明，数据挖掘时一定要做到宏微结合，全方位考虑。

3、（针对迷雾3）数据之间的相关性和数据的因果没有必然联系，千万不能强加因果。

4、（针对迷雾4）当得出结论和常理不符合时，试图用感性因素去解释。

5、（针对迷雾6）当所做结论需要用到某维度信息时，不能想当然地添加维度信息。

Daaliang

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Data Mining: Theory and Algorithms 笔记第一章：走进数据科学：博大精深，美不胜收

走进数据科学：博大精深，美不胜收整装待发Educationis the kindling of a flame, not the filling of a vessel. --SocratesA teacherwho is attempting to teach without inspiring the pupil with a desire to learnis hammering on co...
复制链接

扫一扫