我们要爬取的是百度贴吧 –神盾局吧–中的帖子信息
url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8”
我们往后翻页发现第二页
url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8&pn=50”
往后页数依次累加50, 这就说明每页都有50个帖子,且参数由&pn=0 -> &pn=50 -> &pn=100 -> …
今天我们爬取前3页的帖子, 也就是150个帖子的信息
目标分析:
1: 选取要爬取的目标内容, 今天我们爬取每个的标题, 内容, 发帖时间,作者,当然也可以爬取其他内容
2: 观察源码, 找到对应信息处在的标签和位置
3: 抓取, 显示, 存储
下面我们开始工作 打开url
咦, 是不是发现这个url现在看到的和从网页上打开的 不一样, 这是因为
%E7%A5%9E%E7%9B%BE%E5%B1%80 就是中文,只不过是经过utf-8编码过的中文
下面我们观察源码 找出我们需要的信息
一个月前 写的,当时有事博客就没写 ,现在也先不写 看到这了 自己先试着做做 ,哈哈