【Udacity】3,1 ,什么是EDA

EDA:(Exploratory Data Analysis)是数据收集,学习及操作流程等大量过程中的一部分,又称探索性数据分析。
一、数据无处不在
data.gov网站
Facebook网站:Facebook的日数据处理量超过500TB-2012
https://www.cnet.com/news/facebook-processes-more-than-500-tb-of-data-daily/
Presto 是 Facebook 的一个工具,主要用于特定分析,日数据处理量超过 1 PB。
https://www.cnblogs.com/tgzhu/p/6033373.html
goole trends或者百度指数

二、为什么要学习EDA
数据正变得无处不在而且廉价,而分析正是数据的补充。
EDA是对数据以及变量间关系的研究,通过数字和图形的方法来进行,它通常处于更加正是的,更加严格的统计分析前。
EDA可以让你产生一些见解或新的问题,甚至为构建预测模型打下基础。
EDA也是防御坏数据的一道重要防线,它让你有机会检查你对数据集的一些假设和直觉。
EDA融入更大的预测模型构建的流程中的示例:netflix大奖赛。
提升数据推理能力
提升你的沟通技能
拓展你的职业机会

三、EDA的目的
1、了解数据分布(直方图,散点图等)
2、评估和验证假设,基于这些假设将得到推理
3、先了解数据,再提出假设,EDA为你提供试验的想法
4、最后我们对数据集形成一个直觉,知道它是怎么形成的。通过研究数据,我们可以生成更好的假说,确定哪些变量有更大的预测力,然后选择相应的统计工具,来建立我们预测模型。

四、EDA使用工具
直方图
接触数据集要牢记一点,对数据可能讲出的故事始终要保持怀疑,检查数据并考虑其背景。
观察数据时,始终好奇,始终怀疑。
人们在观察数据时要更加怀疑,应该乐于独自把玩数据。培养一种好奇心而敢于质疑的思维。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值