输出词云结果:
爬取思想:
1.利用request库获得目标页面的文本数据,如果目标网页对请求头有要求,利用Google浏览器获得请求头内容并添加,最后将传回的数据转化为json格式方便操作。
2.在循环爬取时加入time.sleep(random.random()*5语句防止被封
3.分词和生成词云
方法分析:
1.获得数据:
目标url的获取:
url=‘https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=65998861425&score=0&sortType=5&page=%s&pageSize=10&isShadowSku=0&fold=1’% page
利用Google浏览器获得
- 标签中的评论接口,对page参数赋予占位符方便以后循环调用
page=%s
主要代码:
def spider_id(page=0):
“”":param page:评论页面"""
url = ‘https://club.jd.com/co