python爬虫入门:2--爬取百度贴吧内容

我们要爬取的是百度贴吧 –神盾局吧–中的帖子信息

url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8

我们往后翻页发现第二页

url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8&pn=50

往后页数依次累加50, 这就说明每页都有50个帖子,且参数由&pn=0 -> &pn=50 -> &pn=100 -> …

今天我们爬取前3页的帖子, 也就是150个帖子的信息

目标分析:

1: 选取要爬取的目标内容, 今天我们爬取每个的标题, 内容, 发帖时间,作者,当然也可以爬取其他内容

2: 观察源码, 找到对应信息处在的标签和位置

3: 抓取, 显示, 存储

下面我们开始工作 打开url

咦, 是不是发现这个url现在看到的和从网页上打开的 不一样, 这是因为

%E7%A5%9E%E7%9B%BE%E5%B1%80 就是中文,只不过是经过utf-8编码过的中文

下面我们观察源码 找出我们需要的信息

一个月前 写的,当时有事博客就没写 ,现在也先不写 看到这了 自己先试着做做 ,哈哈

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值