爬虫基础

最新推荐文章于 2024-07-17 23:50:36 发布

伽蓝の洞

最新推荐文章于 2024-07-17 23:50:36 发布

阅读量267

点赞数 2

分类专栏：爬虫文章标签： python爬虫流程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_26601387/article/details/103217511

版权

本文介绍了Python爬虫的基础流程，包括使用requests或urllib获取页面源代码，利用BeautifulSoup设定提取规则来解析数据，以及如何使用pandas保存爬取的数据。还提供了urllib和requests的请求示例，以及BeautifulSoup的基本用法。

摘要由CSDN通过智能技术生成

Python爬虫笔记

- 爬虫的一般流程

爬虫的一般流程

1.发送请求解析数据
通过requests库或者urllib库发送网络请求并解析数据，从而获取网络的源代码文本。
2.设定提取规则
通过设定提取规则，可以使用re或者BeautifulSoup选择从网站上爬取的内容。
3.保存数据
可以选用pandas对文本类数据进行保存。
附：以上流程也可以通过爬虫框架如scrapy实现。

获取页面源代码

这里介绍两种获取网页解析内容的方式——urllib和requests
1.urllib
在py3中urllib发送请求如下（py2中有所不同）

url='www.xxxxxxx.com'#此处为网址
req=urllib.request.urlopen(url)

可以通过.read获取代码文本

content=req.read()

2.requests
requests发送请求如下

url='www.xxxxxxxx.com'#此处为网址
req=requests.get(url)

通过.text获取源代码文本内容

content=req.text

设定提取规则

前言
我们上一步获取的content本质上就是一个包含了网页源代码的字符串，我们要从其中提取信息，实际上就是对字符串的操作，接下来将主要介绍用BeautifulSoup进行信息提取。
节点介绍
我们可以在要操作的网页上右键进行检查

鼠标移到的地方便会有对应的代码，每个形如<div都是一个节点。

 <a href="/datainfo/viewCar?carId=275014" target="_blank">华通牌</a>

对于上面的代码a是节点，href为属性，华通牌为文本，/a表示节点的结束。
基本用法
先通过BeautifulSoup进行解析

soup=BeautifulSoup(content,'lxml')#content是我们

最低0.47元/天解锁文章

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
爬虫基础

Python爬虫笔记爬虫的一般流程获取页面源代码设定提取规则爬虫的一般流程1.发送请求解析数据通过requests库或者urllib库发送网络请求并解析数据，从而获取网络的源代码文本。2.设定提取规则通过设定提取规则，可以使用re或者BeautifulSoup选择从网站上爬取的内容。3.保存数据可以选用pandas对文本类数据进行保存。附：以上流程也可以通过爬虫框架如scrapy实...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。