PYTHON爬虫学习笔记之BS4

本文详细介绍了使用BeautifulSoup库解析HTML数据的过程,包括如何实例化BS4对象,加载本地或网络页面源码,以及如何通过find、find_all、select等方法定位和提取标签数据。同时讲解了提取标签属性中的数据值,如使用.text获取文本内容和通过['href']获取链接属性。
摘要由CSDN通过智能技术生成

BS4解析

数据解析的原理,标签的定位,提取标签,标签属性中储存的数据值

bs4数据解析的原理

1.实例一个Beautifulsoup对象,并且将页面源码数据加载到该对象中

2.通过调用Beautifulsoup对象中相关的属性或者方法进行标签定位和数据提取

编码流程以及问题

1.如何实例化BS4对象

​ from bs4 import BeautifulSoup

​ 对象的实例化:

​ 1.将本地的HTML文件的数据加载到该对象中

fp=open('./sogou.html','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml')

​ 2.将互联网上获取的页面源码加载到该对象中

page_text = response.text
soup = BeautifulSoup(page_text,'lxml')

2.Bs4中所提供的相关方法与属性

1.定位标签

soup.tagname:返回的是文件中第一次出现的标签名

soup.find(‘div’):1.等同于soup.div

​ 2.属性定位suop.find(‘div’,class_/id等=‘song’)

soup.find_all(‘a’):找到符合标注的所有标签

soup.select(’.某种选择器’),返回的是一个列表

soup.select(’.tang > ul > li > a’) 【0】返回的是一个列表,极为列表中的第一个元素 层级选择器的应用(>一个层级)(空格表示多个层级)

2.标签中的数据提取(获取文本数据)

soup.a.text /string/get_text()

.text/get_text() 可以获取某个标签下面的全部内容

string只能获取直系的文本内容

soup.a[‘href’]查看属性

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值