Python爬虫的三种数据解析方式

最新推荐文章于 2024-04-27 14:47:02 发布

嗨学编程

最新推荐文章于 2024-04-27 14:47:02 发布

阅读量1.7k

点赞数 1

分类专栏： Python Python爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fei347795790/article/details/94864382

版权

Python 同时被 2 个专栏收录

717 篇文章 175 订阅

订阅专栏

677 篇文章 324 订阅

订阅专栏

数据解析方式　　

　　- 正则

　　- xpath

　　- bs4

数据解析的原理：

标签的定位

提取标签中存储的文本数据或者标签属性中存储的数据

正则

# 正则表达式

单字符：

. : 除换行以外所有字符

[] ：[aoe] [a-w] 匹配集合中任意一个字符

\d ：数字 [0-9]

\D : 非数字

\w ：数字、字母、下划线、中文

\W : 非\w

\s ：所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

\S : 非空白

数量修饰：

* : 任意多次 >=0

+ : 至少1次 >=1

? : 可有可无 0次或者1次

{m} ：固定m次 hello{3,}

{m,} ：至少m次

{m,n} ：m-n次

边界：

$ : 以某某结尾

^ : 以某某开头

分组：

(ab)

贪婪模式： .*

非贪婪（惰性）模式： .*?

re.I : 忽略大小写

re.M ：多行匹配

re.S ：单行匹配

re.sub(正则表达式, 替换内容, 字符串)

爬取糗事百科中所有的糗图图片数据

bs4解析

解析原理：

实例化一个Beautifulsoup的对象，且将页面源码数据加载到该对象中

使用该对象的相关属性和方法实现标签定位和数据提取

环境的安装：

pip install bs4

pip install lxml

实例化Beautifulsoup对象

BeautifulSoup(page_text,'lxml'):将从互联网上请求到的页面源码数据加载到该对象中

BeautifulSoup(fp,'lxml')：将本地存储的一样页面源码数据加载到该对象中

属性

soup.a.attrs 返回一字典，里面是所有属性和值

soup.a['href'] 获取href属性

文本

soup.a.string

soup.a.text

soup.a.get_text()

find方法

#find只能找到符合要求的第一个标签，他返回的是一个对象

soup.find('a')

soup.find('a', class_='xxx')

soup.find('a', title='xxx')

soup.find('a', id='xxx')

soup.find('a', id=re.compile(r'xxx'))

find_all

#返回一个列表，列表里面是所有的符合要求的对象soup.find_all('a')

soup.find_all('a', class_='wang')

soup.find_all('a', id=re.compile(r'xxx'))

soup.find_all('a', limit=2)#提取出前两个符合要求的a

select

#选择，选择器 css中

常用的选择器

标签选择器、id选择器、类选择器

层级选择器**

div h1 a 后面的是前面的子节点即可

div > h1 > a 后面的必须是前面的直接子节点

属性选择器

input[name='hehe']

select('选择器的')

返回的是一个列表，列表里面都是对象

find find_all select不仅适用于soup对象，还适用于其他的子对象，如果调用子对象的select方法，那么就是从这个子对象里面去找符合这个选择器的标签

爬取古诗文网的三国演义小说

xpath解析：

- 解析效率比较高

- 通用性最强的

- 环境安装：pip install lxml

- 解析原理：

- 实例化一个etree对象且将即将被解析的页面源码数据加载到该对象中

- 使用etree对象中的xpath方法结合着xpath表达式进行标签定位和数据提取

- 实例化etree对象

- etree.parse('本地文件路径')

- etree.HTML(page_text)

爬取全国城市名称

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫的三种数据解析方式

数据解析方式　　　　- 正则　　- xpath　　- bs4数据解析的原理：标签的定位提取标签中存储的文本数据或者标签属性中存储的数据正则# 正则表达式单字符： . : 除换行以外所有字符 [] ：[aoe] [a-w] 匹配集合中任意一个字符 \d ：数字 [0-9] \D : 非数字...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。