数据科学实战笔记1

最新推荐文章于 2023-12-31 01:39:10 发布

liche717

最新推荐文章于 2023-12-31 01:39:10 发布

阅读量418

点赞数

分类专栏：数据分析基础知识

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010963351/article/details/50836451

版权

数据分析基础知识专栏收录该内容

10 篇文章 0 订阅

订阅专栏

第一章什么是数据科学

数据化被定义成一种处理流程，将生活中的方方面转换为数据。重视数据的同时，要尊重他人的意愿。数据就是现实世界运转留下的痕迹。

数据科学维恩图

第二章统计推断、探索性数据分析和数据科学工作流程

2.1

2．1.1统计推断

从现实世界到数据，再由数据到现实世界的流程就是统计推断的领域。

2.1.2总体和样本

采样方式不同，将会得到不同的答案，结果都会失真。

2.1.3大数据的总体和样本

采样可以解决一些工程上的挑战（Hadoop等分布式技术解决海量数据带来的工程和计算问题，采样可以达到同样的效果）

偏差：注意语境（桑迪飓风）

采样，新的数据类型

大数据中的4V原则：Volume,Variety,Velocity,Value.

2.1.4大数据意味着大胆的假设

忽视因果关系，n=1,n=N

2.1.5建模

模型就是可以通过其去观察和了解现实世界的本质。

统计建模：概率分布，

拟合模型：是指用观察数据估计模型参数的过程，过拟合

2.2探索性数学分析——建模的第一步

2.3数据科学的工作流程

第3章算法

1．数据清理和与处理算法，比如排序，MapReduce,Pregel

2.用于参数估计的最优化算法，比如随机梯度下降，牛顿法，最小二乘法

3.机器学习算法

3.1 线性回归模型

表示两个变量间的数学关系。

数据（趋势和变动幅度）

3.1.1模型拟合 model<-lm(y~x)

增加预测变量

多元回归模型 model<-lm(y~x1+x2+x3+x4)

交叉变动项 model <- lm(y~x1+x2+x3+x2*x3)

3.1.2模型评估标准 summary(model)

R方：数据中能够被模型所解释的方法占数据总方差的比重

P值在原假设的基础上，我们可以得到的观测数据的概率

交叉验证：改变一下训练数据集的大小

3.2 KNN-k近邻算法

分类算法

3.3 k均值算法

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据科学实战笔记1

第一章什么是数据科学数据化被定义成一种处理流程，将生活中的方方面转换为数据。重视数据的同时，要尊重他人的意愿。数据就是现实世界运转留下的痕迹。数据科学维恩图第二章统计推断、探索性数据分析和数据科学工作流程2.12．1.1统计推断从现实世界到数据，再由数据到现实世界的流程就是统计推断的领域。2.1.2总体和样本采样方式不同，将会得到不同的答案，结果都会失真
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。