python试爬李毅吧贴子标题，爬虫最初级

心中那自由的世界

于 2017-08-21 10:41:26 发布

阅读量2.3k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/119365374/article/details/77446804

版权

本文介绍了作者初次尝试Python爬虫的过程，目标是抓取李毅吧的帖子标题。首先使用urllib2进行HTTP请求，然后利用lxml解析HTML并提取内容。在解析过程中，通过分析HTML结构，定位到帖子标题所在的div元素。虽然代码能够获取到数据，但还需要优化以精确获取帖子标题。

摘要由CSDN通过智能技术生成

注：以下所有python代码均运行于2.7.0

最近想抓点数据存起来，开始捣鼓python。爬虫技术以前没接触过，这一回就当练手，从零开始，从最原始的方式开始。先定个小目标，抓一下著名的“李毅吧”的一些贴子标题。

要爬数据，第一步肯定是网络请求，在这里主要是指get/post请求。第二步是对返回的html进行解析。第三步是从解析后的DOM树里取我们想要的东西。

在这些步骤进行之前，要先安装lxml，这个用pip install lxml就可以了。

第一步，使用urllib2，先把李毅吧的url请求一下。百度目前使用的是https，这个没关系。https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85/

然后打开命令窗口，python。let's go。
import urllib2 from lxml import etree r = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85") p = r.read()
好了，是不是代码很简短，我们第一步就完成了。

第二步，要引入lxml，来解析取到的html文件。解析前肯定是要用开发者工具先分析一下h

最低0.47元/天解锁文章

心中那自由的世界

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。