Python爬虫相关自用(BS4)02

.text 字符串

.content 二进阶(例如图片)

.json() 返回json对象

from bs4 import BeautifulSoup
response = requests.get(url=url,headers =headers).text
soup = BeautifulSoup(response,'lxml')

把爬下来的代码放到BeautifulSoup里面,用lxml解析

一、

soup .标签名称 可以返回第一个标签对应标签名称的内容 soup.a

二、

soup.find('标签名称') 返回第一个标签对应标签名称的内容 soup.find('div')

soup.find('标签名称',class_='class名称')返回对应class的div中的内容

soup.find_all('标签名称') 返回所有符合的标签 以list形式

soup.find_all('标签名称',class_='class名称') 返回所有对应class的div中的内容

三、

soup.select('某种选择器') 返回html选择器中对应的内容

soup.select('层级选择') 返回是一个列表

例: soup.select('.tang > ul > li >a') 这样就会返回class为tang里面按着每一层进去找到的a标签下的内容,返回是一个列表,所以返回后再从列表取值

> 标识一个层级 例如 ul > li >a 这样一层一层

空格标识多个层级 例如 ul a 这样无论ul和a中间有多少都会定位到ul下的a

四、

.text  能获取标签下所有text内容

.get_text() 能获取标签下所有text内容

.string 只能获取标签下直系的内容

以上三个都可以在定位后拿到对应的text数据

例 soup.a.text

五、

['属性名'] 定位到标签内的属性内容

例 soup.a['href'] 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值