爬虫之数据处理(HTML)----bs4(css选择器)

一.安装与功能概述

1.安装

pip install beautifulSoup4

2.功能

BeautifulSoup是一个可以从HTML或XML文件中提取数据的python库

BeautifulSoup用来解析HTML比较简单,API非常热人性化,支持css选择器,python标准库中的HTML解释器,也支持lxml的xml解释器

二.常用规则和方法

soup.标签                  #获取第一个标签
soup.标签.attrs            #获取标签的所有属性
soup.标签.attrs['指定属性'] #获取标签的第一个属性
soup.标签.get('指定属性')   #获取标签的第一个属性
soup.标签.text/soup.标签.get_text()  #获取一个标签中的所有文本内容,包括子孙节点的内容
soup.标签.string    #获取一个标签下的文本内容,只有在此标签没有子标签,或者只有一个子标签的情况下才能返回其中的内容,否则返回的就是None
soup.find_all(标签)        #获取一个标签中的所有文本内容,包括子孙节点的内容
soup.find_all(标签,'指定属性'='指定值') #限定  注:eg  'class'→'class_'(关键字)
soup.select()#写css选择器规则匹配符合规则的数据


三.css选择器

1.回顾

#   →   id选择器

.   →   class选择器

>   →   子代后代选择器

2.eg

print(soup.select('p.story>a'))   #筛选父辈为story p标签的a标签  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>