Python3 简单爬虫爬取百度贴吧帖子

使用Python3.x的版本 对http://tieba.baidu.com/p/2005436135,该百度贴吧帖子进行爬取操作。


一.使用到的库。

1.   urllib.request   :对链接进行解析,以及图片的保存

参考资料:http://www.jb51.net/article/42630.htm

http://www.cnblogs.com/Lands-ljk/p/5447127.html


2.   re   :正则表达式的处理模块

参考资料:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html


3.   os   :文件的操作模块

参考资料:http://developer.51cto.com/art/201003/186045.htm


二.对帖子链接的分析。

该帖子是对部分美剧的分析和推荐。

原始链接为:http://tieba.baidu.com/p/2005436135

如果只看楼主的话会变成:http://tieba.baidu.com/p/2005436135?see_lz=1

如果选择第几页的话变成:http://tieba.baidu.com/p/2005436135?see_lz=1&pn=2

可以看出:?see_lz=1是选择只看楼主,?see_lz=0,取消只看楼主,&pn=x , x就是第几页。


三.使用urllib.request模块获取到网页源码。

1.urllib.request.open()  可以直接使用Url作为参数,或者一个Request对象作为参数。

在此使用Request对象作为参数。

request = urllib.request.Request(Url)
response = urllib.request.urlopen(request)


2.read() 方法   将得到的源码显示出来,并且使用decode('utf-8'),进行解码,得到网页源码。

response.read().decode('utf-8')

四.构造方法,得到网页源码。

根据需求可分为只看楼主或者不只看楼主,根据输入的链接Url,是否只看楼主SeeLZ,开始的页数Num,做参数,得到如下代码。

    def getPage(self,Url,SeeLZ,Num):
        if(SeeLZ == 1):
            Url = Url.strip() + '?see_lz=1' + '&pn=' + str(Num)  # strip()去掉字符串左右两边的空格
        if(SeeLZ == 0):
            Url = Url.strip() + '?see_lz=0' + '&pn=' + str(Num)
     
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值