数据分析之旅
y4ung
这个作者很懒,什么都没留下…
展开
-
数据分析之旅(四)
解决数据分析中问题的步骤 1. 确定哪些数据是异常点; 2. 打印出部分的数据异常点; 3. 看看能不能发现什么问题;话说上一回,学员第一周的上课最长时间(10568.100867332541 minutes)超过了每周的总分钟数(10080 minutes) 首先,要先找到这个拥有异常数据点的学生: 因为字典total_minutes_by_account 的Key值是有顺序的因此我原创 2017-02-14 21:58:16 · 4218 阅读 · 0 评论 -
数据分析之旅(一)
数据分析过程提出问题 <–> 数据再加工(包括数据采集和数据清理) <–> 数据探索(培养直觉,找出数据模式) –> 总结,进行预测 –> 与他人交流结果(博客、论文、电子邮件、PPT、面谈)并且所有的过程都可能回到第一个阶段:提出问题 数据采集的方式1. 下载文件; 2. 从API获取数据; 3. 从网页中爬取数据; 4. 对多种不同格式的数据进行合并; CSV–Comma Separated V原创 2017-02-11 16:22:48 · 4261 阅读 · 0 评论 -
数据分析之旅(二)
话接上一回,这个有注册的学生数呀,为1302人;而有记录(学生每天学习的记录)的人数为1237人。这就奇了怪了。难道这些学生还飞了不成?下面就试试用代码来找找这些“问题学生”:在《数据分析之旅(一)》中的代码里的函数:def unique_students(csvlist,keyname): s = set() for each in csvlist: s.add(e原创 2017-02-12 18:02:10 · 3999 阅读 · 0 评论 -
数据分析之旅(三)
又一次筛选而对于学生,又要进行一次筛选(enrollments.csv文件是Udacity纳米学位项目的学生信息,包含了有付费的以及试用期的)。 在《二》中已经筛掉了测试的账号,得到了non_udacity_enrollments(list)paid_students = {} # 设置为字典,为后续的操作做准备; Key: account_key, Value: join_date for enr原创 2017-02-13 19:08:06 · 4070 阅读 · 0 评论