Python3 简单爬虫爬取百度贴吧帖子

最新推荐文章于 2020-11-21 02:40:37 发布

繁城落叶

最新推荐文章于 2020-11-21 02:40:37 发布

阅读量2.6k

点赞数

分类专栏： Python 文章标签： python 爬虫库

本文链接：https://blog.csdn.net/Leafage_M/article/details/52289655

版权

使用Python3.x的版本对http://tieba.baidu.com/p/2005436135，该百度贴吧帖子进行爬取操作。

一.使用到的库。

1. urllib.request ：对链接进行解析，以及图片的保存

参考资料：http://www.jb51.net/article/42630.htm

http://www.cnblogs.com/Lands-ljk/p/5447127.html

2. re ：正则表达式的处理模块

参考资料：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

3. os ：文件的操作模块

参考资料：http://developer.51cto.com/art/201003/186045.htm

二.对帖子链接的分析。

该帖子是对部分美剧的分析和推荐。

原始链接为：http://tieba.baidu.com/p/2005436135

如果只看楼主的话会变成：http://tieba.baidu.com/p/2005436135?see_lz=1

如果选择第几页的话变成：http://tieba.baidu.com/p/2005436135?see_lz=1&pn=2

可以看出：?see_lz=1是选择只看楼主，?see_lz=0,取消只看楼主，&pn=x ， x就是第几页。

三.使用urllib.request模块获取到网页源码。

1.urllib.request.open() 可以直接使用Url作为参数，或者一个Request对象作为参数。

在此使用Request对象作为参数。

request = urllib.request.Request(Url)
response = urllib.request.urlopen(request)

2.read() 方法将得到的源码显示出来，并且使用decode('utf-8')，进行解码，得到网页源码。

response.read().decode('utf-8')

四.构造方法，得到网页源码。

根据需求可分为只看楼主或者不只看楼主,根据输入的链接Url，是否只看楼主SeeLZ，开始的页数Num，做参数，得到如下代码。

    def getPage(self,Url,SeeLZ,Num):
        if(SeeLZ == 1):
            Url = Url.strip() + '?see_lz=1' + '&pn=' + str(Num)  # strip()去掉字符串左右两边的空格
        if(SeeLZ == 0):
            Url = Url.strip() + '?see_lz=0' + '&pn=' + str(Num)

最低0.47元/天解锁文章

繁城落叶

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
Python3 简单爬虫爬取百度贴吧帖子

使用Python3.x的版本对http://tieba.baidu.com/p/2005436135，该百度贴吧帖子进行爬取操作。一.使用到的库。1. urllib.request ：对链接进行解析，以及图片的保存参考资料：http://www.jb51.net/article/42630.htmhttp://www.cnblogs.com/Lands-ljk/p
复制链接

扫一扫

专栏目录