bs4数据解析基础

最新推荐文章于 2024-01-23 17:55:23 发布

不会秃头

最新推荐文章于 2024-01-23 17:55:23 发布

阅读量420

点赞数

分类专栏： python学习文章标签：爬虫 python js

本文链接：https://blog.csdn.net/qq_38499019/article/details/115096522

版权

关键词由CSDN通过智能技术生成

11 篇文章 0 订阅

订阅专栏

数据解析的原理：

bs4数据解析的原理：

环境安装：

如何实例化BeautifulSoup对象：

对象的实例化：

fp = open('./test.html', 'r', encoding='utf-8')
soup = BeautifulSoup(fp, 'lxml')

page_text = response.text
soup = Beautiful(page_text, 'lxml')

提供的用于数据解析的方法和属性：

soup.tagName:返回的是文档中第一次出现的tagName对应的标签
soup.find('tagName'):等同于soup.tagName
soup.find('tagName',class_/id/attr='song') ：寻找对应的标签 class_：要跟下划线不跟的话是个关键字跟的话是个参数名称
soup.find_all('tagName'):返回符合要求的所有标签返回一个列表
soup.select:
1. select('某种选择器(id, class, 标签...选择器)')，返回的是一个列表 （标签名不加任何修饰，类名前加点，id名前加 #）
2. 层级选择器:
  1. soup.select('.tang > ul > li > a'): > 表示的是一个层级
  2. soup.select('.tang > ul > li a'): 空格表示的是多个层级
3. 获取标签之间的文本数据
  1. soup.a.text/string/get_text()
  2. text/get_text():可以获取某一个标签中所有的文本内容
  3. string:只可以获取标签下面直系的文本内容
4. 获取标签中的属性值：
  1. soup.a['href']

关注

专栏目录