第一章什么是数据科学
数据化被定义成一种处理流程,将生活中的方方面转换为数据。重视数据的同时,要尊重他人的意愿。数据就是现实世界运转留下的痕迹。
数据科学维恩图
第二章统计推断、探索性数据分析和数据科学工作流程
2.1
2.1.1统计推断
从现实世界到数据,再由数据到现实世界的流程就是统计推断的领域。
2.1.2总体和样本
采样方式不同,将会得到不同的答案,结果都会失真。
2.1.3大数据的总体和样本
采样可以解决一些工程上的挑战(Hadoop等分布式技术解决海量数据带来的工程和计算问题,采样可以达到同样的效果)
偏差:注意语境(桑迪飓风)
采样,新的数据类型
大数据中的4V原则:Volume,Variety,Velocity,Value.
2.1.4大数据意味着大胆的假设
忽视因果关系,n=1,n=N
2.1.5建模
模型就是可以通过其去观察和了解现实世界的本质。
统计建模:概率分布,
拟合模型:是指用观察数据估计模型参数的过程,过拟合
2.2探索性数学分析——建模的第一步
2.3数据科学的工作流程
第3章算法
1.数据清理和与处理算法,比如排序,MapReduce,Pregel
2.用于参数估计的最优化算法,比如随机梯度下降,牛顿法,最小二乘法
3.机器学习算法
3.1 线性回归模型
表示两个变量间的数学关系。
数据(趋势和变动幅度)
3.1.1模型拟合 model<-lm(y~x)
增加预测变量
多元回归模型 model<-lm(y~x1+x2+x3+x4)
交叉变动项 model <- lm(y~x1+x2+x3+x2*x3)
3.1.2模型评估标准 summary(model)
R方:数据中能够被模型所解释的方法占数据总方差的比重
P值在原假设的基础上,我们可以得到的观测数据的概率
交叉验证:改变一下训练数据集的大小
3.2 KNN-k近邻算法
分类算法
3.3 k均值算法