爬虫基础--python

最新推荐文章于 2023-09-11 15:55:37 发布

Lucas__liu

最新推荐文章于 2023-09-11 15:55:37 发布

阅读量385

点赞数

分类专栏：爬虫 Python 模块学习文章标签： python 爬虫学习数据抽取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lb245557472/article/details/85163790

版权

Python 同时被 3 个专栏收录

33 篇文章 1 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

5 篇文章 0 订阅

订阅专栏

一、准备工作

之前不理解爬虫的时候，感觉很强大，当你理解后会发现确实很强大，哈哈，开个小玩笑。言归正传，当你深入的了解，会发现爬虫其实就是解析网页内容，利用xpath、selector、re等语法抽取所需要的数据内容。所以说学习爬虫，首先要学会处理HTML的文本页面（包括抽取中间的文本内容，下载图片，抽取url等）。

以下列出学习几个处理web网页的Python模块及参考的博客：

1.HtmlParser

参考：http://www.cnblogs.com/masako/p/5868367.html

2.SGMLParser

参考：http://pako.iteye.com/blog/592009

3.pyQuery

官方文档：https://pythonhosted.org/pyquery/#quickstart
实战参考：http://blog.itpub.net/22166274/viewspace-1183937/
用法参考：http://blog.csdn.net/cnmilan/article/details/8727308

4.BeautifulSoup

官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

5.lxml

参考：http://cuiqingcai.com/2621.html

在处理网页抽取数据的时候可以用以上5个模块，不过3、4、5是比较常用的，具体可根据自己的喜好选择用哪个，以上模块不用全部学习，多了也不一定都能记着，选一两个学就好。既然已经学会了数据的抽取接下来就是如何获取网页的数据内容了。

二、获取网页数据及处理

关于处于网页的，网上有大把的教程，我就不在闭门造轮子了。推荐一个详细的爬虫教程（基于urlib这个模块的）

爬虫（一）：http://blog.csdn.net/pleasecallmewhy/article/details/8922826

爬虫（二）：http://blog.csdn.net/pleasecallmewhy/article/details/8923067

爬虫（三）：http://blog.csdn.net/pleasecallmewhy/article/details/8923725

爬虫（四）：http://blog.csdn.net/pleasecallmewhy/article/details/8924889

爬虫（五）：http://blog.csdn.net/pleasecallmewhy/article/details/8925978

爬虫（六）：http://blog.csdn.net/pleasecallmewhy/article/details/8927832

爬虫（七）：http://blog.csdn.net/pleasecallmewhy/article/details/8929576

爬虫（八）：http://blog.csdn.net/pleasecallmewhy/article/details/8932310

爬虫（九）：http://blog.csdn.NET/pleasecallmewhy/article/details/8934726

以上的教程是基于urlib这个模块的，你还可以利用requests这个模块来获取网页数据(本人是比较喜欢用requests的)，处理各种的请求（get,post,delete等）。

Requests学习参考：

当学习完以上后基本就选小成了，以下推荐一个爬虫的小游戏可以练练手，一共四关，当过了第一关后，第二关才会出现，当然你也可以直接在网上搜索第二关的地址，点击尝试，这几关网上有答案，但一定要先自己写然后再去参考答案，这样才有效果，办法不止一种，相信自己，多尝试。
还可以参考这两个地址，主要讲爬虫的思路及一些实现，参考地址：

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫基础--python

一、准备工作之前不理解爬虫的时候，感觉很强大，当你理解后会发现确实很强大，哈哈，开个小玩笑。言归正传，当你深入的了解，会发现爬虫其实就是解析网页内容，利用xpath、selector、re等语法抽取所需要的数据内容。所以说学习爬虫，首先要学会处理HTML的文本页面（包括抽取中间的文本内容，下载图片，抽取url等）。以下列出学习几个处理web网页的Python模块及参考的博客：1.Html...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。