1-7 bs4入门

最新推荐文章于 2023-09-27 17:41:19 发布

MrRenLG

最新推荐文章于 2023-09-27 17:41:19 发布

阅读量210

点赞数

分类专栏：爬虫入门文章标签：爬虫入门 python

本文链接：https://blog.csdn.net/MrRenLG/article/details/88902458

版权

爬虫入门专栏收录该内容

2 篇文章 0 订阅

订阅专栏

xpath 模糊查询

//div[contais(@id," <...> ")]

取下一个节点（平级关系）

following-sibling::*

#bs4

用选择器查找

# 1.转类型
# 默认bs4会调用系统中lxml的解析库。所以会有较高提示，主动设置解析库
soup = BeautifulSoup(html_doc, features="lxml")

#格式化输出 补全
result = soup.prettify()
print(result)

#解析数据
# 用 "." 只能取第一个，
result = soup.head
result = soup.p

# 取文本
result = soup.a.string

#取属性
result = soup.a['href']

###四大对象：

Tag 标签对象

就对原生文本的类型

Navigablestring

string类型

bs4.BeautifulSoup

格式化文本的类型

comment

注释的内容是comment类型

2.通运解析方法

find 取符合条件的第一个标签
# name
result = soup.find(name=“a”)
#attrs穿字典
result = soup.find(attrs={"": “”})
result = soup.find()

find_all 返回列表，全部的标签对象

result = soup.find_all('a')
result = soup.find_all('a'，limit=1)

select_one 对应css的选择器，返回列表，类选择器：.标签，id选择器：#标签

result=select_one('.sister')

select css选择器，返回列表

result=select('.sister')

取内容标签包裹的内容–列表

get_text()

取属性

get('<属性的名称>')

三种选择器对比

效率上正则最快

xml 前端移动端和后台交互的数据格式

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MrRenLG

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python bs4模块快速入门

weixin_44602409的博客

07-21

340

学习爬虫，离不开数据解析和分析。python中的BeautifulSoup模块就是绝佳的html解析器，这里记录一下bs4的主要函数。安装安装bs4 pip3 install beautifulsoup4 安装lxml解析器 pip3 install lxml 安装lxml解析器可能会出xmlCheckVersion报错，这时候可以到网上下载对应的lxml.whl，用whl来安装即可。获得html 首先从request库获得一个html页面，或者是本地的静态Html页面，用bs4去解析 soup

Python爬虫----bs4库中的BeautifulSoup基础运用+爬取招商银行商品信息实例运用

whelloworldw的博客

05-29

1012

BeautifulSoup有五种基本元素，分别是标签（Tag），标签名（Name），标签的属性（Attribute），标签内非属性字符串（NavigableString）以及标签内的注释部分（Comment）。理解好BeautifulSoup库的五种基本元素是使用BeautifulSoup的基础。然后就是html页面中标签的解析（1）find()方法：用于查找符合查询条件的标签节点（2）find_all() 方法：查找所有符合查询条件的标签节点，并返回一个列表。

参与评论您还未登录，请先登录后发表或查看评论

Python--爬虫爬取优美图库--bs4（BeatifulSoup）入门

qq_57663276的博客

09-29

3228

Python--爬虫（爬取3）--bs4（BeatifulSoup）入门

Python爬虫----bs4入门到精通（一）

R71802的博客

05-14

542

Python爬虫----bs4入门到精通（一）文章目录Python爬虫----bs4入门到精通（一）BeautifulSoup4介绍基本概念源码分析bs4快速入门一、安装二、导入模块三、创建soup对象bs4对象种类代码演示，详细注解遍历文档树contents，children，descendants代码演示，详细注解string ，strings，stripped_strings代码演示，详细注解parent 和 parents代码演示，详细注解find() 和 find_all()----[重点学习

爬虫笔记14：bs4简介、bs4的快速入门、find()和find_all()方法

微信公众号进阶的阿牛哥的博客

05-15

7059

一、bs4简介 1、基本概念 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的网页信息提取库。 2、有什么作用？解析和提取网页中的数据 3、有什么意义？随着网站的种类增多，去寻找最适合解决这个网站的技术。正则表达式有的时候不太好写，容易出错； xpath 记住一些语法：//*[@id=“content”]/div[2]/div/div/p[2]/span bs4的特点：只需要记住一些方法就可以了。二、bs4源码分析（github下载源码）源码当中有一些小图标： c ：Cl

20230711学习日志 bs4

weixin_62562378的博客

07-11

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。# pip install bs4 安装Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐安装。

.net入门教程--bs代码生成(一)

06-06

497

.net代码生成

第五讲----bs4

PANHUI444678的博客

10-31

473

bs4简介基本概念 Beautiful Soup 是可以从HTML或XML文件中提取数据的网页信息提取库安装。pip install lxml 。pip install bs4 # @File : bs4快速入门.py # import bs4 from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head>

Python-for-newbs:我的Python for newbs系列的源文件-python source file

03-25

在本资源"Python-for-newbs"中，我们聚焦于初学者入门Python编程的旅程。"Python for newbs"（新手的Python）系列旨在为那些刚刚接触编程或对Python语言感兴趣的用户提供一套逐步学习的资料。这个压缩包包含了该系列...

计算机课程作业-基于BS的投融资服务平台设计与实现 .doc

05-17

在当前的数字化时代，互联网经济的崛起带来了全新的投资方式，基于BS（Browser/Server，浏览器/服务器）架构的投融资服务平台正是这种趋势下的产物。本文主要探讨了一款利用MyEclipse作为开发工具，Oracle数据库作为...

浅谈Python中的bs4基础

qq_39138295的博客

07-30

632

安装在命令提示符框中直接输入pip install beautifulsoup4 介绍 beautifulsoup是python的一个第三方库，和xpath一样，都是用来解析html数据的。引入 from bs4 import BeautifulSoup 使用将一段文档传入BeautifulSoup的构造方法，就能得到一个文档的对象。 bs = BeautifulSoup...

爬虫必备Beautiful Soup （bs4）模块入门

Mr_fengzi的博客

08-08

538

什么是Beautiful Soup？和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据，lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简...

Python爬虫编程：数据解析模块之bs4，超详细