爬取腾讯视频的评论

最新推荐文章于 2024-05-04 20:00:01 发布

弥野月亮

最新推荐文章于 2024-05-04 20:00:01 发布

阅读量587

点赞数

分类专栏：数据分析

本文链接：https://blog.csdn.net/weixin_40650422/article/details/97372954

版权

数据分析专栏收录该内容

12 篇文章 0 订阅

订阅专栏

技术：

浏览器伪装
Fiddler解析url的js文件
代码如下：

'''爬取腾讯评论
技术：浏览器伪装、每次加载评论的对应url也做规律性改变
网址url通过Fildler抓包分析获取（https）
最后打算通过正则的方式剔除网页中一些不太友好的内容 但不是很理想'''

import urllib.request
import re
import urllib.error
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.22 Safari/537.36 SE 2.X MetaSr 1.0")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener)
pattern = '[<=>]+'
comid="6165793094371986503"
url="http://video.coral.qq.com/filmreviewr/c/upcomment/0dfpyvfa7tp0ewe?commentid="+comid+"&reqnum=3&callback=jQuery1120026430801920245595_1478436999932&_=1478436999935"
for i in range(0,100):
    data=urllib.request.urlopen(url).read().decode()
    # 提取“加载评论”所在的网址
    patnext='"last":"(.*?)"'
    nextid=re.compile(patnext).findall(data)[0]
    patcom='"content":"(.*?)",'
    comdata=re.compile(patcom).findall(data)
    for j in range(0,len(comdata)):
        print("------第"+str(i)+str(j)+"条评论内容是:")
        print(re.sub(pattern,'',eval('u"'+comdata[j]+'"'))) #eval让内容运行一下
    url="http://video.coral.qq.com/filmreviewr/c/upcomment/0dfpyvfa7tp0ewe?commentid="+nextid+"&reqnum=3&callback=jQuery1120026430801920245595_1478436999932&_=1478436999935"

弥野月亮

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬取腾讯视频的评论

技术：浏览器伪装Fiddler解析url的js文件代码如下：'''爬取腾讯评论技术：浏览器伪装、每次加载评论的对应url也做规律性改变网址url通过Fildler抓包分析获取（https）最后打算通过正则的方式剔除网页中一些不太友好的内容但不是很理想'''import urllib.requestimport reimport urllib.errorheaders=...
复制链接

扫一扫