爬虫视频学习之数据解析

最新推荐文章于 2024-07-17 21:40:42 发布

ZSYi666

最新推荐文章于 2024-07-17 21:40:42 发布

阅读量550

点赞数

分类专栏：爬虫暑期实践文章标签：学习爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ZSYi666/article/details/131922554

版权

暑期实践同时被 2 个专栏收录

33 篇文章 0 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

目录

1.1 bs4实现数据解析的原理

1.2 bs4环境安装

1.3 如何实例化BeautifulSoup对象

1.3.1 对象的实例化

1.3.2 提供的用于数据解析的方法和属性

1.3.4 获取标签之间的文本数据

1.3.5 获取标签中的属性值

2.1 xpath解析原理

2.2 环境安装

2.3 如何实例化一个etree对象

2.4 xpath表达式

编码流程更新：

指定url
发起请求
获取响应数据
数据解析
持久化储存

数据解析原理概述：

1.进行指定标签的定位

2.标签或标签对应属性中存储的数据值进行提取

注：解析的局部的文本内容都会在标签之间或者标签对应的属性中进行储存

数据解析分析：

正则
bs4
xpath

1.bs4解析

只可以用在python语言中

1.1 bs4实现数据解析的原理

（1）实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中

（2）通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取

1.2 bs4环境安装

pip install bs4
pip install lxml

1.3 如何实例化BeautifulSoup对象

from bs4 import BeautifulSoup

1.3.1 对象的实例化

（1）将本地的html文档中的数据加载到该对象中

fp=open('./text/html','r',encoding='utf-8')

soup=BeautifulSoup(fp,'html')

（2）将互联网上获取的页面源码加载到该对象中

page_text=response.text

soup=BeautifulSoup(page_text,'lxml')

1.3.2 提供的用于数据解析的方法和属性

（1）soup.tagName:返回的是文档中第一次出现的tagName对应的标签

（2）soup.find():

① find('tagName'):等同于soup.div

② 属性定位：soup.find('div',class_/id/attr='song')

（3）soup.find_all('tagName'):返回符合要求的所有标签

1.3.3 select

（1）select('某种选择器(id,class,标签...选择器)'),返回的是一个列表

（2）层级选择器：

①soup.select('.tang>ul>li>a') >表示一个层级

②soup.select('.tang>ul a') 空格表示多个层级

1.3.4 获取标签之间的文本数据

—soup.a.text/string/get_text()

—text/get_text():可以获取某一个标签中所有的文本内容

—string:只可以获取该标签下的直系文本内容

1.3.5 获取标签中的属性值

soup.a['href']

2.xpath解析

最常用且最高效的一种解析方式，具有通用性

2.1 xpath解析原理

（1）实例化一个etree的对象，且需要将被解析的页面源码数据加载到该对象中

（2）调用etree对象中的xpath方法，结合xpath表达式实现标签的定位和内容的捕获

2.2 环境安装

pip install lxml

2.3 如何实例化一个etree对象

from lxml import etree

将本地的html文档中的源码数据加载到etree对象中：etree.parse(filePath)
将从互联网上获取的源码数据加载到该对象中：etree.HTML('page_text')

— xpath('xpath表达式')

2.4 xpath表达式

/：表示从根节点开始定位，表示的是一个层级

//：表示多个层级；可以从任意位置开始定位

属性定位：//div[@class='song'] tag[@attrName="attrValue"]

索引定位：//div[@class='song']/p[3] 索引是从1开始的

取文本：

/text() 获取的是标签中直系的文本内容

//text () 标签中非直系的文本内容（所有的文本内容）

取属性：/@attrName ==>img/src

注：content返回的是二进制形式的图片数据，text（字符串），json(对象)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫视频学习之数据解析

1.进行指定标签的定位2.标签或标签对应属性中存储的数据值进行提取注：解析的局部的文本内容都会在标签之间或者标签对应的属性中进行储存。
复制链接

扫一扫

专栏目录

ZSYi666 CSDN认证博客专家 CSDN认证企业博客

码龄1年

35: 原创

139万+: 周排名

224万+: 总排名

8532: 访问

: 等级

352: 积分

1: 粉丝

2: 获赞

0: 评论

1: 收藏

私信

关注

热门文章

分类专栏

爬虫 10篇
暑期实践 33篇

最新评论

暑期实践方向：python爬虫
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/616235599。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。