写在前面
考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方。而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息。虽然网上有很多爬取百度贴吧的教程和例子,但是贴吧规则更新快,目的不一样,爬取的内容也不一样,所以就有了这个工具。
目的
爬取1000条帖子→判断是否是广告或者垃圾信息→分析语言情感→生成词云
一、分析
1.1 先查看贴吧的规则,果然有规律,每一页是50条帖子
1.2 帖子内容,也有规律,都在这个标签里面
1.3 判断内容就用百度AI的内容审核,情感分析也用百度AI了,省事
1.4 词云可以先用jieba分词然后再用wordcloud生成,但是后来发现网上有现成的工具
二、爬取过程
2.1 首先解决的一个小问题就是让它自己计算一下每页是50条帖子,我输入1000条它应该去爬取那几个页面,就用这种数