走进数据科学:博大精深,美不胜收
整装待发
Educationis the kindling of a flame, not the filling of a vessel. --Socrates
A teacherwho is attempting to teach without inspiring the pupil with a desire to learnis hammering on cold iron. --Horace Mann
期货(Futures):期货与现货完全不同,现货是实实在在可以交易的货(商品),期货主要不是货,而是以某种大众产品如棉花、大豆、石油等及金融资产如股票、债券等为标的标准化可交易合约。因此,这个标的物可以是某种商品(例如黄金、原油、农产品),也可以是金融工具。
学而不思则罔
UCI:包含很多公开的数据集
WEKA:开源免费的数据挖掘软件
KDnuggets:数据挖掘网站
Tell me and I forget. Teach me and Iremember. Involve me and I learn. –BenjaminFranklin
The value of a college education is not thelearning of many facts but the training of the mind to think. –Albert Einstein
知行合一
什么是大数据?
l High-volume High-velocity High-variety
High-volume:数据量大
High-velocity:实时大量的数据流
High-variety:非结构化
l 超过传统处理数据的能力的数据
大数据分析的实际应用
l 公共安全
l 医疗保健领域:个性化医疗
两个问题:under treatment, under treatment
l 城市规划
l 移动用户:使用位置提供服务
l 顾客的购物信息
l 精准销售
l 情感分析
l 社交网络
l MONEYBALL
从数据到知识
理想的数据挖掘成果应当:
Interesting,Useful, Hidden
SPSS
SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称。
分类问题
Classification
分类其实就是找到类的Boundaries,Boundaries应该是平滑的(下图黑色线),不应该造成过分类Overfitting(下图绿色线)。
分类的时候使用的训练集和测试集应该是不同的集合。
混淆矩阵
ROCCurve (Receiver Operating Characteristic)受试者工作特征曲线
评价指标 AUC(AreaUnder Curve):指示ROC曲线下方的面积,约大越好,理想为1。
CostSensitive Learning
False Positive, False Negative哪一个的危害更大?或者使用权重来评价。
LiftAnalysis
使用模型相对不使用模型的提升度,用来评价一个模型实际使用时候的效率。
聚类(clustering)及其它数据挖掘问题
Clustering、Classifying区别:
Clustering是unsupervisedlearning,Classifying是supervised learning。Clustering中样本是没有标签的,如好人、坏人等。
层次型聚类(HierarchicalClustering)
有些时候需要在不同层次进行聚类,就像在海外大家都是中国人,就是一个group。但是回到中国就不一样了,你有大陆的香港的台湾的,然后大陆又分各个省到一个省,又分各个市一个市又分各个县。
AssociationRule关联规则
使用关联规则来判断买了A产品的用户会不会购买B产品。
线性回归
线性回归的函数整体不一定是线性的,线性的意思是β乘以x的几次方,而不是指y对x是线性的。
线性回归中也存在Overfitting Regression过度回归的问题。
中间的回归是最优曲线,左边过于简单,右边过于复杂。
数据可视化 Seeingis Knowing
用可视化的方法1、辅助研究者选择使用什么样的方法挖掘数据,或者2、为客户展示结果。
可视化软件推荐:
数据预处理Data Preprocessing
数据挖掘中最具有挑战性的部分。数据可能存在问题,例如某些数据缺失,或者部分数据不符合实际。
隐私保护与并行计算
PrivacyProtection
在保护用户隐私的前提下,获取调查数据。某个调查问卷的设计方法:
CloudComputing
云计算的实质:Pay as you go 只在使用的时候购买这种服务,而不用一开始一次性购买全部基础设施。
ParallelComputing
利用GPU进行并行计算(不是打游戏)。
MobileComputing
运算装置非常微小却性能强大,可以在便携的前提下进行超级计算。
TheBig Picture
数据 + 算法(模型) + 运算(算力)
NoFree Lunch
没有万能的数据挖掘算法,选择哪个算法以及算法中的具体参数需要根据具体情况而定。
迷雾重重
1、 通过数据挖掘进行预测的可能性
股票(影响因素过度复杂)、彩票(数据随机生成)都很难或不能用数据挖掘进行预测。
2、 数据挖掘时,对数据进行的分类可能导致完全不同的结论
例如:横坐标是户外运动的时间,纵坐标是一个人身体强壮的程度。那么你会觉得根据常理,户外活动时间越长体格应该越强壮,但这里图示表达的含义其实是恰恰相反的。如果你宏观上来看,如果这些是老年人上面是年轻人,年轻人即便它户外活动时间比较少,因为都忙着工作,它的体格也要强于老年人。但是在老年组当中,如果经常锻炼的这些老年人,它的体格还是会比不经常锻炼的老年人的体格要强。所以你不能只宏观地去看问题,这样你会得到非常荒谬的一个结论。但是你要把它分开看的话,就合情合理了。
3、 数据之间的相关性和数据之间的因果没有必然联系
Video Game Sales呈增加趋势,其他犯罪指数呈现降低趋势。能说明暴力游戏的销售能够降低犯罪率吗?不能。如果将暴力游戏曲线换位中国GDP或者我个人的收入,也是呈上升趋势,但是显然这和美国暴力犯罪没有多大联系。所以数据之间的相关性和数据的因果没有必然联系。
4、 Tricky?
理性无法解释的数据所表现的事实,背后可能隐藏着感性因素。例如:身高和人能否成功(智商、情商等)没有必然联系,但是背后隐藏了人们更倾慕身高较高者这一事实。解释数据分析的结果时要充分考虑到这些问题。
5、 幸存者偏差(Survivorship bias)
经典案例:
1940年左右,在英国和德国进行的空战中,双方都损失了不少轰炸机和飞行员。因此当时英国军部研究的一大课题就是:在轰炸机的哪个部位装上更厚的装甲,可以提高本方飞机的防御能力,减少损失。由于装甲很厚,会极大的增加飞机的重量,不可能将飞机从头到尾全都用装甲包起来,因此研究人员需要做出选择,在飞机最易受到攻击的地方加上装甲。
当时的英国军方研究了那些从欧洲大陆空战中飞回来的轰炸机。如上图所示,飞机上被打到的弹孔主要集中在机身中央,两侧的机翼和尾翼部分。因此研究人员提议,在弹孔最密集的部分加上装甲,以提高飞机的防御能力。
这一建议被美国军队统计研究部的统计学家AbrahamWald否决。Wald连续写了8篇研究报告,指出这些百孔千疮的轰炸机是从战场上成功飞回来的“幸存者”,因此它们机身上的弹孔对于飞机来说算不上致命。要想救那些轰炸机飞行员的性命,更正确的方法应该是去研究那些被打中并坠毁的轰炸机。只有研究那些没有成功返航的“倒霉蛋”,才能有的放矢,找到这些飞机最脆弱的地方并用装甲加强。Wald的建议后来被英国军方采纳,挽救了成千上万的飞行员性命。
6、 维度缺失
![](https://i-blog.csdnimg.cn/blog_migrate/01fff51a1d170dbf91f095ec7d7d91be.png)
![](https://i-blog.csdnimg.cn/blog_migrate/ab65eba5e7cc8a10149fdcf020bcbca7.png)
图中根本没有提及时间维度的信息,所以图中的点根本不知道按什么顺序查看。个人感觉不仅是从右往左还是从左往右的问题,这张图甚至可能只是某一个固定具体时刻的数据,因为没有时间维度,所以根本无法解读品牌的发展趋势。
思考:如何拨开迷雾,获得数据反映的真实信息?
1、 (针对迷雾1)考虑数据是否有挖掘价值?是否具有挖掘出目标信息的可能性?
如果本来就没有挖掘的意义,或者没有挖掘出结果的可能性,所有的努力都会是徒劳。
2、 (针对迷雾2、5)迷雾2是指只从宏观分析问题时可能造成的错误结论,迷雾5是指只从部分分析问题时可能造成的错误结论。这说明,数据挖掘时一定要做到宏微结合,全方位考虑。
3、 (针对迷雾3)数据之间的相关性和数据的因果没有必然联系,千万不能强加因果。
4、 (针对迷雾4)当得出结论和常理不符合时,试图用感性因素去解释。
5、 (针对迷雾6)当所做结论需要用到某维度信息时,不能想当然地添加维度信息。