2015年7月份实习时候买的清华出版的《统计学习方法》这本书,当时一鼓作气地读,却只到10%便难以进展,多是因为对数据的理解还未深刻,并且没有使用场景的需求。到今天已经在数据分析这个岗位接触1年多了,从简单的Mysql使用到接触数据采集再到如今的hadoop系统使用,并且兼用户分类算法,推荐算法需要实现的责任,我对数据的理解也更进一步了,因此对理论的需求也增加了,拾起来《统计学习方法》重新阅读,希望有所收获。----2016年11月30日记
计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去----统计学习是什么?
看到这个定义我审视了一下自己目前的工作中可以使用到统计学习的方面:
1.DMP数据管理平台系统性能的优化
2.电信的用户数据中人群标签分类、通过用户的搜索词判断用户意向等
4.DMP的数据中潜在用户群预测、意向产品推荐、购买周期预测这些业务需求
3.在为客户分析的互联网广告中的广告数据分析,垃圾广告位的筛选等
这些问题都要求比较高的统计学习基础和算法基础,这本书应该可以给我理论方向上的指导。
统计学习的目的:基于数据构建统计模型进而对数据的预测与分析。对数据的预测使计算机更智能化,对数据的分析让人们获取新的信息。我对数据的理解是:数据即是信息的源,我们研究数据,分析数据,就是要从这个源中挖掘可以指导业务的信息,这个挖掘过程可能一开始就有目标,也可能一开始根本没有目标,但是在挖掘的过程中得到的信息给挖掘过程带来了目标和方向。
这本书主要讨论监督学习,具体的步骤如下:
1.得到一个有限的训练数据集合(例如说已消费用户的消费数据)
2.确定包含所有可能的模型的假设空间,即学习模型的集合
3.确定模型选择的准则,即学习的策略
4.实现求解最优模型的算法,即学习的算法
5.通过学习方法选择最优模型(可以理解为选择一个最优的模型参量)
6.利用学习的最优模型对新数据进行预测和分析
统计学习学科在科学技术中的重要性主要是在:处理海量数据、计算机智能化、计算机信息发展这三个方面。