摘要:利用python分析背单词软件,揭秘你不知道的惊人真相
0×00 前言
你想知道背单词软件有大概多少人注册第一天都没有背完嘛
你想知道背单词软件这么火,这么多人在使用,真的有多少人真的在背诵嘛
别急,
文章目录如下:
0×00 前言
0×01 问题的提出和任务的分解
0×02 任务一,信息爬取
ox03 任务二,清理和存储
0×04 任务三,分析
0×05 任务四,结论
0×06 整个流程的不足和反思.
0×07 代码.
0×01 问题的提出和任务的分解
前两天,就在一个雷电交加的夜晚,我躺在床上,草草的看了一篇英文文章,突然想到一个非常有意思的问题:
是不是大部分的人做事真的不能坚持呢比如,背单词.
好,那我就看看到底有多少人是坚持不下来的
那么,我们的问题就变成了这样子:
有多少人是在坚持或者曾经坚持过背单词呢(假设100天以上算的上是背单词的话)
有多少梦想,毁于不能坚持
背单词的人们学习的量,是不是符合正太分布呢
于是我选中了业内的标杆扇贝软件作为分析的对象.抽取其中的大约1/30的用户的公开数据,也就是游客用户都可以看得到的数据,进行抽样调查.
调查的具体内容如下:
打卡最高/成长值最高/学习单词数量最高
平均每个人打卡次数/成长值/学习单词数量
打卡/成长值/学习单词数量的分布(也就是已经坚持了多少天了)
那么,我的任务也就可以分解如下:
爬取数据
使用Python2的Scrapy进行爬站
清理数据
sql语句和pandas运算
分析数据
pandas + se