Python爬虫BeautifulSoup笔记

BeautifulSoup基本用法

from bs4 import BeautifulSoup

# 某个网页的源代码
code = '源代码'
#读取到内存
html = code.read().decode('utf-8')
#转换为树形结构,每个标签(tag)是一个节点
soup = BeautifulSoup(html,'html.parser')

'''
soup.标签名 ------ 提取查找到的第一个标签
soup.标签名.string ------ 提取标签内容(文本,字符串)
soup.标签名.attrs ------ 提取标签内字典{属性:值,···,···}
'''

'''
soup.find_all('XXX',limit=10) ------ 提取名为XXX的前10条标签
soup.find_all(re.compile('正则表达式规则')) ------ 提取满足表达式的所有内容
soup.find_all('参数' = re.compile('正则表达式')) ------- 提取满足正则表达式的参数内容
'''

#选择器方式
'''
soup.select('title') ------ 通过标签查找
soup.select('.mnav') ------通过类名查找
soup.select('#Action') ------ 通过id查找
soup.select('p[class="mnav"]') ------ 通过属性查找
result = soup.select(f'#Action > .mnav > .t1 > a') ------ 通过子标签查找
'''


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值