京东爬虫
私信获取完整代码
抓取评论的关键字
- 用户ID
- 评论内容
- 会员级别
- 点赞数
- 回复数
- 评价星级
- 购买时间
- 手机型号
抓取原理
-
分析京东评论界面数据来源及url规律
-
利用requests库访问json格式评论信息
运行环境
- Chrome 版本 72.0.3626.109(正式版本) (64 位)
- Python 3.5.2 :: Anaconda 4.2.0 (64-bit)
前置库
核心库如下
- requests
- fake_useragent
- BeautifulSoup
在当前目录下的控制台使用以下命令,批量安装上述相关的程序包
pip install -r requirements.txt
使用方法
环境
配置代理的终端可以直接使用
pip install -r requirements
觉得下载速度慢,可以使用清华镜像源下载相关依赖
pip install -r requirements -i https://pypi.tuna.tsinghua.edu.cn/simple
运行脚本SpiderScript.py
将文件下载到本地,cmd进入该文件夹
(注意:在爬取数据之前,尽量确保网络的稳定,这能提高爬虫的效率,爬完所有数据,会存到data目录下的csv文件中)
数据分析脚本JDComment_Processing.ipynb
使用Jupyter notebook/lab打开ipynb文件,随后shift+enter逐步执行,即可看到数据处理过程(每个单元格的执行情况)。
分析借助柱状图和词云图来展现手机消费时段以及热点评论词,效果如下
时段分析
词云图
会员分析