美味的汤

最新推荐文章于 2025-02-19 20:40:33 发布

ctfliar

最新推荐文章于 2025-02-19 20:40:33 发布

阅读量145

点赞数 1

文章标签： python html

本文链接：https://blog.csdn.net/qq_51318301/article/details/116348387

版权

美味的汤

导入的模块代码

 from bs4 import BeautifulSoup

beautifulsoup这个库的原理是通过匹配标签来找到自己想要的东西。基于网页上面的是HTML代码，所以说这样的方法是比正则表达式还要方便的

一般使用到这一个库是在写爬虫的时候，下面是一个写好的爬虫：

from bs4 import BeautifulSoup
import requests

url = 'http://www.baidu.com'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:88.0) Gecko/20100101 Firefox/88.0'}
html = requests.get(url, headers=headers).text

# 遍历文档树   有两个参数，第一个是返回的HTML文本，第二个是搜索文档树的解释器：lxml  ,  和网页内置的html.parser
soup = BeautifulSoup(html, 'lxml')

# 搜索文档树           ，div后面的id属性使用，在标签前面加上# 号搜索  ，class后面的id属性用 . 搜索
print(soup.prettify)  # 标准化输出，这样更加美观
result = soup.find_all('div', attrs={'class': 's-news-list-wrapper c-container c-feed-box'})    # 这个方法使用的对象一定要是soup
print(result)  # 测试返回的是是否正确
# print(result[class][0])        # find_all函数找不到很有可能是标签的动态加载所致，可以尝试找其他的标签
respond = soup.find_all('img')
print(respond)

一些网站上面是禁止爬虫爬取数据的，在爬虫里尽可能地模拟一般用户访问，这样的话更加容易爬取到自己想要的数据。

美味的汤第一种常见的写法是根据标签来寻找，例如寻找img标签，就是在煲了美味的汤之后，使用标签作为一个方法：

soup.img.attrs #获取所有的属性和值，返回一个字典
soup.img.attrs['href'] 获取href的属性
soup.img['href']

标签里面是有一些子标签和属性的，剩下的也是可以匹配的

比较常用的是find方法和find_all方法，参数的话参考上面的代码。

1.select选择器的使用方法：

    根据选择器选择指定的内容
    常见的选择器：标签选择器，类选择器，ID选择器，组合选择器，层级选择器，伪类选择器，属性选择器
    传递给select（)方法的选择器

soup.select('div')                   所有名为<div>的元素
soup.select('#author')               带有id属性为author的元素
soup.select('.notice')               所有使用CSS class 属性名为notice的元素
soup.select('div span')              所有在<div>元素之内的<span>元素
oup.select('div > span')            所有直接在<div>元素之内的<span>元素，中间没有其他元素
soup.select('input[name]')           所有名为<input>,并有一个name属性，其值无所谓的元素
soup.select('input[type="button"]')  所有名为<input>,并有一个type属性，其值为bottom的元素