python爬虫-bs4详解--小林月

最新推荐文章于 2024-03-10 20:07:04 发布

小林月

最新推荐文章于 2024-03-10 20:07:04 发布

阅读量593

点赞数 1

文章标签： servlet 前端 ajax

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_53953480/article/details/129846366

版权

目录

一、数据解析的原理:

二、bs4数据解析的原理:

三、如何实例化BeautifulSoup对象:

四、提供的用于数据解析的方法和属性:

bs4进行数据解析

一、数据解析的原理:

一1.标签定位
—2.提取标签、标签属性中存储的数据值

二、bs4数据解析的原理:

-1.实例化一个BeautifulSoup对象，并且将页面源码数据加载到该对象中
-2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取

-环境安装:

pip install bs4

pip install lxml

三、如何实例化BeautifulSoup对象:

案例图片：

from bs4 import BeautifulSoup

一对象的实例化:
- 1.将本地的html文档中的数据加载到该对象中

fp = open( './test.html','r',encoding='utf-8')
soup =BeautifulSoup(fp, 'lxml')

-2.将互联网上获取的页面源码加载到该对象中（常用）

page_text =response.text
soup =BeatifulSoup( pag_text, ' lxml')

四、提供的用于数据解析的方法和属性:

-soup.tagName:返回的是文档中第一次出现的tagName对应的标签

-soup.find():
-find( 'tagName'):等同于soup.div

一属性定位:

soup.find('div',class_/id/attr='song')

soup.find_all('tagName'):返回符合要求的所有标签（列表)

- select:
- select('某种选择器(id,class，标签...选择器)‘),返回的是一个列表。|

——>表示一个层级

print(soup.select('.tang > ul > li > a')[0]

——空格表示两个层级

print( sloup.select('.tang > ul a')[0])

——获取标签之间的文本数据:
-soup.a.text/string/get_text()
- text/get_text():可以获取某一个标签中所有的文本内容

- string:只商以获取该标签下面直系的文本内容

print( sloup.select('.tang > ul a')[0].text)

print( sloup.select('.tang > ul a')[0].string)

一获取标签中属性值:
一soup.a[ 'href ']

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫-bs4详解--小林月

bs4进行数据解析。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。