需要用到的工具:pycharm编辑器,python3
主要用到的库:re,urllib,requests,time,BeautifulSoup,selenium,numpy,matplotlib,jieba,scipy,WordCloud
整体流程分为两部分
1.用户评论信息的获取。
2.文本数据挖掘,先对百度视频评论进行文本分析,再对豆瓣影评进行分析,得出结论。
首先来介绍用户评论信息的获取:
这里利用python爬虫对百度视频、豆瓣影评进行数据抓取。
一、百度视频评论抓取:
1.进入百度视频网站搜索延禧攻略,往下拉可进入如下页面,此时的url为http://v.baidu.com/tv/27918.html?frm=browse
2.右键查看网页源代码,查看用户评论不在网页源代码中,这时需要用fiddler对网址进行抓包,找出评论信息所在的网址。
3.写出爬虫程序,调试运行,运行结果如下:
百度视频爬取源代码:
import time import re import urllib.error for j in range(1, 285): url = 'http://v.baidu.com/uc/comment/list?callback=jQuery111108193683500820239_1535160749870&page='+str(j)+'&workstype=tvplay&works_id=27918&_=153516074987