本文为younghz原创,文章链接为:http://blog.csdn.net/u012150179/article/details/37306629
这个问题最初是源于我在知乎上一个回答(http://www.zhihu.com/question/24368542/answer/27579662),涉及了两个方面:数据抓取和数据分析。
1、数据爬取
爬取对象:淘宝“连衣裙 夏”的搜索结果。爬取对象的选择分析我在文章中也有提及。工具:Scrapy。
代码:我把当时实现的代码放在了GitHub上,地址:https://github.com/younghz/TBBKAnalysis,感兴趣的可以看一下。关于Scrapy的知识与爬虫的编写可以见专栏:http://blog.csdn.net/column/details/younghz-scrapy.html
2、数据分析
分析内容可见上述Repository的Wiki(https://github.com/younghz/TBBKAnalysis/wiki)。我也会将其写在下面。或者直接看上面知乎问题中我写的答案。工具:ipython & matplotlib。
3、分析内容
分析内容放在了Wiki中,链接:https://github.com/younghz/TBBKAnalysis/wiki。或者直接见下面正文。(注意:如果Wiki中图片无法打开,请使用较高版本的Chrome浏览器。)
4、正文
一、案例选择。
现在着手分析的对象是能让你在三个月获得大把钞票的“爆款”。这 当然得拿最有代表性的商品当例子,最有代表性就是最火的。看看什么最火。下面是淘宝指数(http://shu.taobao.com/top/16/search)数据。