BeautifulSoup的使用

最新推荐文章于 2024-02-21 20:10:21 发布

童话里做英雄529

最新推荐文章于 2024-02-21 20:10:21 发布

阅读量128

点赞数

分类专栏：爬虫文章标签： BeautifulSoup

本文链接：https://blog.csdn.net/qq_39290225/article/details/96351487

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.find_all()
注意点：
1.返回的是列表
2.name用来指定需要匹配的tag
传入：字符串，正则，列表（查询多个标签）

# 获取所有的a标签
a=html_doc.find_all('a')
#获取以l开头的标签
print(html_doc.find_all(re.compile('^l')))
# 获取所有的img和a标签
imganda = html_doc.find_all(['img','a'])
#获取class为'easyCon'的标签
 html_doc.find_all(class_ = 'easyCon')

2. css选择器
(1)通过标签名

html_doc.select('img')

(2)类名

html_doc.select('.easyCon')

(3)id

html_doc.select('#noLogin')

(4)组合查找(在div标签中查找id=’noLogin’的内容)

html_doc.select('div #noLogin')

(5)按照属性查找

html_doc.select('li[id="noLogin"]')

(6)获取属性和文字部分

print('获取属性',a_obj.attrs['href'])
print('获取文字',a_obj.get_text())

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

童话里做英雄529

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

BeautifulSoup 使用例子

东方佑

05-15

1143

是一个 Python 库，用于解析 HTML 和 XML 文档。它创建一个解析树，使你能够轻松地访问文档元素和属性。bs4是的版本 4，是目前最新的版本。以下是一些使用find()find()find_all()find_all()select()select()class_classclass_ididstringstringget_text()get_text()attrsattrs这些是使用进行元素查找的一些基本方法。非常灵活，提供了多种方式来查找和操作HTML或XML文档中的元素。

Python网页解析利器：BeautifulSoup使用指南

09-23

本文将详细介绍如何在Python中使用BeautifulSoup进行网页解析，包括库的安装、基本用法、高级技巧以及最佳实践。 BeautifulSoup是Python中进行网页解析的强大工具。通过本文的介绍，你应该能够掌握BeautifulSoup的...

参与评论您还未登录，请先登录后发表或查看评论

html中的img ，a ，select的使用

weixin_30518397的博客

05-14

146

<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>a标签</title></head> <body> 　　<!--target="_blank" 表示打开一个新页面看，如果是在原来页...

爬虫笔记14：bs4简介、bs4的快速入门、find()和find_all()方法

微信公众号进阶的阿牛哥的博客

05-15

7094

一、bs4简介 1、基本概念 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的网页信息提取库。 2、有什么作用？解析和提取网页中的数据 3、有什么意义？随着网站的种类增多，去寻找最适合解决这个网站的技术。正则表达式有的时候不太好写，容易出错； xpath 记住一些语法：//*[@id=“content”]/div[2]/div/div/p[2]/span bs4的特点：只需要记住一些方法就可以了。二、bs4源码分析（github下载源码）源码当中有一些小图标： c ：Cl

BeautifulSoup使用

m0_74290535的博客

11-09

BeautifulSoup的基本使用

hacker707的博客

03-21

1万+

BeautifulSoup是一个用于从HTML和XML文件中提取数据的python模块。BeautifulSoup模块的查找提取功能非常强大，而且使用起来非常便捷，可以节约很多时间

python+requests+BeautifulSoup使用教程及爬虫实战

weixin_44458771的博客

11-30

1125

BeautifulSoup提供了简洁而直观的API，能够自动纠正不规范的HTML代码，并处理嵌套标签、缺失标签等问题，还支持多种解析器（如lxml、html5lib等），可以根据需要选择不同的解析器来提高解析速度和效果，被广泛应用于爬虫中。是一个使用Python + Flask编写的HTTP Request & Response Service，该服务主要用于测试HTTP库，你可以向他发送请求，然后他会按照指定的规则将你的请求返回（查看你所发送请求中的信息）。是HTTP请求响应的字符编码方式。

python爬虫request和BeautifulSoup使用

技术小白

10-28

4441

通过观察第二页的路径，我们发现在点击第二页时系统会传一个start的属性，这个属性除以25在加1就是我们需要的页数，反过来就是 (页数-1)*25 = start。首先我们发现，all_titls其实是一个数组，所以我们可以遍历他，这样就可以得到每一个span元素，通过string的属性就可以得到span标签中间的内容。我们虽然找到了span标签中，class为title的元素，但我们不需要span标签中的内容，所以我们需要对他进行处理。简单的说，我们可以拿他来解析html页面，来获取html的元素。

超级详细的BeautifulSoup使用方法