这里以上海工会管理职业学院为例子,目标是获取以下内容。
通过观察网页编码,可以发现以下结构:
标题:
今天广播员是谁呐歌单和我好像呐求勾搭【另外,别让那个主播Jason出现了,难受】
接下来就是通过urllib2+re(正则表达式)来进行网页处理。
1.在处理网页的时候,如果贴子是置顶的话,有时候会缺失内容项,所以添加了处理置顶贴的函数。
#http://www.imekaku.com/2015/08/31/python-work-tieba2/
#http://blog.csdn.net/u010412719/article/details/50199047
#http://python.jobbole.com/81359/
#备注:百度贴吧不同页下载下来的数据会有很多重复项,需要进行去重处理