python试爬李毅吧贴子标题，爬虫最初级

最新推荐文章于 2020-02-27 09:58:22 发布

心中那自由的世界

最新推荐文章于 2020-02-27 09:58:22 发布

阅读量2.1k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/119365374/article/details/77446804

版权

注：以下所有python代码均运行于2.7.0

最近想抓点数据存起来，开始捣鼓python。爬虫技术以前没接触过，这一回就当练手，从零开始，从最原始的方式开始。先定个小目标，抓一下著名的“李毅吧”的一些贴子标题。

要爬数据，第一步肯定是网络请求，在这里主要是指get/post请求。第二步是对返回的html进行解析。第三步是从解析后的DOM树里取我们想要的东西。

在这些步骤进行之前，要先安装lxml，这个用pip install lxml就可以了。

第一步，使用urllib2，先把李毅吧的url请求一下。百度目前使用的是https，这个没关系。https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85/

然后打开命令窗口，python。let's go。
import urllib2 from lxml import etree r = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85") p = r.read()
好了，是不是代码很简短，我们第一步就完成了。

第二步，要引入lxml，来解析取到的html文件。解析前肯定是要用开发者工具先分析一下h

最低0.47元/天解锁文章

心中那自由的世界

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python试爬李毅吧贴子标题，爬虫最初级

注：以下所有python代码均运行于2.7.0最近想抓点数据存起来，开始捣鼓python。爬虫技术以前没接触过，这一回就当练手，从零开始，从最原始的方式开始。先定个小目标，抓一下著名的“李毅吧”的一些贴子标题。要爬数据，第一步肯定是网络请求，在这里主要是指get/post请求。第二步是对返回的html进行解析。第三步是从解析后的DOM树里取我们想要的东西。在这些步骤进行之前，要先安装lxml
复制链接

扫一扫

心中那自由的世界 CSDN认证博客专家 CSDN认证企业博客

码龄20年

29: 原创

117万+: 周排名

185万+: 总排名

9万+: 访问

: 等级

700: 积分

124: 粉丝

21: 获赞

7: 评论

40: 收藏

私信

关注

热门文章

分类专栏

C++
架构相关 1篇
Java
skynet 6篇
pomelo 6篇

最新评论

小心stringstream.str()字符串用法的陷阱
数据结构和算法: 快进俺的收藏夹吧！
mysql导数据遇到错误提示ERROR 1227,Acess denied
Thomas2143: 死循环 [code=html] mysql> set @@session.sql_log_bin=0; ERROR 1227 (42000): Access denied; you need (at least one of) the SUPER privilege(s) for this operation [/code]
skynet教程（1）--服务的编写
Stupid Bird: skeynet的lua虚拟机是不是并没有绑定在线程上，线程只是用来调度消息队列的
skynet教程（2）--项目代码独立于skynet源码结构
食鱼酱: 有用，谢谢
小心stringstream.str()字符串用法的陷阱
Captain_Permission: 的确是好东西，感谢楼主分享，但是搬运还是注明下出处比较好。 https://www.ibm.com/developerworks/community/blogs/5894415f-be62-4bc0-81c5-3956e82276f3/entry/discover_the_traps_when_using_stringstream_str?lang=en

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。