python爬虫入门:2--爬取百度贴吧内容

最新推荐文章于 2024-05-02 21:47:38 发布

知足--常乐

最新推荐文章于 2024-05-02 21:47:38 发布

阅读量547

点赞数

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/changjiale110/article/details/76146037

版权

Python 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

我们要爬取的是百度贴吧 –神盾局吧–中的帖子信息

url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8”

我们往后翻页发现第二页

url = “http://tieba.baidu.com/f?kw=%E7%A5%9E%E7%9B%BE%E5%B1%80&ie=utf-8&pn=50”

往后页数依次累加50，这就说明每页都有50个帖子，且参数由&pn=0 -> &pn=50 -> &pn=100 -> …

今天我们爬取前3页的帖子，也就是150个帖子的信息

目标分析：

1: 选取要爬取的目标内容，今天我们爬取每个的标题，内容，发帖时间，作者，当然也可以爬取其他内容

2: 观察源码，找到对应信息处在的标签和位置

3: 抓取，显示，存储

下面我们开始工作打开url

咦，是不是发现这个url现在看到的和从网页上打开的不一样，这是因为

%E7%A5%9E%E7%9B%BE%E5%B1%80 就是中文，只不过是经过utf-8编码过的中文

下面我们观察源码找出我们需要的信息

一个月前写的，当时有事博客就没写，现在也先不写看到这了自己先试着做做，哈哈

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

知足--常乐 CSDN认证博客专家 CSDN认证企业博客

码龄7年

268: 原创

12万+: 周排名

61万+: 总排名

65万+: 访问

: 等级

7159: 积分

621: 粉丝

656: 获赞

173: 评论

2092: 收藏

私信

关注

热门文章

分类专栏

最新评论

针对codeblocks无法使用的问题的解决方案
哦可不同: 试了一晚，就这个帖子解决了，感谢
[转]void main（）还是int main（）
Cat Bayi: 大佬好啊，我是Cat_Bayi，最近更新的文章《C++教程 - How to C++系列专栏第1篇》参考了大佬的文章，特此感谢 https://blog.csdn.net/cat_bayi/article/details/132120795
置顶通知
CSDN-Ada助手: 非常感谢您的置顶通知，博主的文章对技术爱好者们来说都是非常有价值的。我觉得下一篇博客可以写关于人工智能在医疗领域的应用，这是目前比较热门的话题，也是一个非常有意义的方向。相信这样的技术文章会对其他用户有很大的帮助和启发，同时也会吸引更多读者的关注和参与。期待博主的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
针对codeblocks无法使用的问题的解决方案
rr rrrua: 亲测有用，我就是因为下载了MinGW之后也不再在codeblocks的根目录下导致一直是不能出现编译器，还有一个问题就是复制文件路径时有双引号，在那个odeblocks里面改的时候要记得把引号给删了，不然也找不到编译器，我搞了几次才搞好
JAVA小项目--银行管理系统
苏苏493: 为啥我实现不了作者的开户后的操作啊

大家在看

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。