day31-python数据解析

最新推荐文章于 2024-09-21 17:16:41 发布

要迅捷些

最新推荐文章于 2024-09-21 17:16:41 发布

阅读量220

点赞数

文章标签： python

本文链接：https://blog.csdn.net/Hokage_rob/article/details/108328758

版权

本文详细介绍了如何使用BeautifulSoup库进行HTML解析，包括创建解析器、标签选择器、获取标签信息、处理子节点和祖先节点、操作兄弟标签，以及利用标准选择器和CSS选择器进行更精确的选择。

摘要由CSDN通过智能技术生成

一 bs4的使用

1.1.创建指定页面对应的解析器

BeautifulSoup(需要解析的文档数据, 解析器类型-lxml)

soup = BeautifulSoup(html, 'lxml')
print(soup)

1.2.标签选择器

解析器对象.标签名 - 解析器对象中第一个指定标签

获取soup对应页面中第一个title标签

print(soup.title)

获取soup中第一个p标签中的第一个font标签

print(soup.p.font)

1.3. 获取标签名、标签属性和标签内容

标签名：标签对象.name

print(soup.title.name)

标签属性：
标签对象.attrs - 获取指定标签所有的属性和值对应的字典
标签对象.attrs[属性名]

print(soup.a.attrs)
print(soup.a.attrs['href'])

标签内容
标签对象.string - 获取标签中的文本内容（如果内容是标签返回子标签中的文本内容，如果文本和子标签同时存在就返回None）

print

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

要迅捷些

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

BMD101手册

07-10

微型的ECG信号处理芯片，内置对应算法，接口简单，使用方便。

BMD101心电详解

weixin_45983966的博客

07-01

6479

一个简单的数据格式，串口数据流控制，主要区分8字节数据是实时采集的心电电压数据，第512个数据是心率数据，如果只采集心率只需要取第512个数据就行，一秒一个大约。数据就按数据流来取，串口接收做缓存。其他的看datasheet就行，解析数据datasheet中也有示例添加链接描述链接：https://pan.baidu.com/s/15fyMnwTe-2veopX2P1UfoA 提取码：c835 网上卖三百多不知道为啥这么贵。。。没啥技术难度这玩意。。。。 ...

参与评论您还未登录，请先登录后发表或查看评论

Day16-30_Day16-30_python_

10-03

在Python学习之旅中，"Day16-30"阶段是一个关键的过渡期，涵盖了从基础知识到更高级概念的深入探索。在这个阶段，初学者会接触到许多重要的编程概念和技术，这些将为后续的学习打下坚实的基础。以下是这个阶段可能会...

Duckling: 一个将文本解析为结构化数据的Haskell库-python

06-18

Duckling Duckling 是一个 Haskell 库，可将文本解析为结构化数据。 "十月的第一个星期二" => {"value":"2017-10-03T00:00:00.000-07:00","grain":"day"} 要求需要 Haskell 环境。我们建议使用堆栈。在 ...

清华-尹成老师-Python爬虫day22

06-12

【标题】"清华-尹成老师-Python爬虫day22"所涵盖的知识点主要集中在Python爬虫技术的深入学习上，由知名讲师尹成带领，适合对Python爬虫有一定基础或者想要系统学习的同学。在这个课程中，尹成老师以其生动的教学...

清华-尹成老师-Python爬虫day27

06-12

在"清华-尹成老师-Python爬虫day27"这个课程中，尹成老师以他独特的教学风格，深入浅出地引导我们进入Python爬虫的世界。Python爬虫是数据挖掘和数据分析的重要工具，尤其在互联网时代，大量公开的数据等待我们去...

Python-Python轻松处理日期时间

08-10

在Python编程中，日期和时间的操作是至关重要的，无论是在数据分析、日志记录还是系统调度等场景中。Python提供了一些内置的库来处理日期和时间，如`datetime`、`time`以及第三方库如`sdispater-pendulum`。本文将...

Tcl lnit error: Can’t find a usable init.tcl in the following directories 问题解决

梦想闹钟

09-15

597

实际研究后发现，其实py2exe已经把打包需要的lib放在dist文件夹下了，但是打包后的程序运行后却没有去lib下找，而是去找系统自带的环境变量里找，所以找不到。这个问题出现在我用py2exe打包了一个包含tkinter的图形化界面，在当前电脑上运行无问题，在移动到新电脑上后提示报错、getcwd用于获取当前工作目录绝对路径，在设置环境的变量的时候它用的是绝对路径-所以也导致了在当前电脑上能用而移动后不能用。解决方法是在你的程序里重新设置下环境变量，而且是用相对路径的形式。

Pandas的入门操作-Series对象

weixin_58305115的博客

09-18

747

data参数data是Series构造函数中最主要的参数，它用来指定要存储在Series中的数据。data可以是多种数据类型，例如：Python 列表（list）或元组（tuple），如pd.Series([1, 2, 3])或pd.Series((4, 5, 6))。NumPy 数组，例如pd.Series(np.array([7, 8, 9]))。标量值（单个数值、字符串等），如pd.Series(5, index=[0, 1, 2])，这将创建一个包含相同标量值的Series。

Leetcode 2183. 统计可以被 K 整除的下标对数目

m0_51437455的博客

09-17

171

第二步，理论：两个数字的乘积能被k整除两个数字各自与k的最大公约数的乘积能被k整除。循环两层遍历最大公约数，获取两两组合的频数乘积的和。在这里，对于合法的(i,j)对，会被枚举两次，(i,j)和(j,i)两对相同；同时对于不合法的(i,i)对，会被枚举一次。第四步，result除以2，消除(i,j)和(j,i)重复对的影响，并返回结果。nums[i] * nums[j] 能被 k 整除。第三步，去掉多枚举的不合法的(i,i)对。哈希表 + 辗转相除法求最大公约数。

文档内容识别系统源码分享

xuehaishijue的博客

09-17

1775

数据集信息展示在当今信息爆炸的时代，文档内容识别系统的有效性和准确性愈发重要。为了提升YOLOv8在文档内容识别任务中的表现，我们采用了名为“FULL 2”的数据集进行训练和评估。该数据集专为文档图像的多样性和复杂性而设计，涵盖了多种类别的文本元素，使其成为优化深度学习模型的理想选择。

2024.9.16 day 1 pytorch安装及环境配置

m0_58285219的博客

09-16

681

pytorch安装及环境配置

计算机毕业设计推荐-基于Java的小区物业管理系统

BYSJLG的博客

09-17

1085

研究背景和必要性当前，小区物业管理已经成为居民生活质量的重要保障，随着社会的发展和生活水平的提升，人们对居住环境的要求不断提高。传统的小区物业管理模式依赖于人工登记、纸质记录和电话沟通，管理效率低下，数据容易丢失且更新不及时。此外，业主与物业之间的沟通渠道单一，信息反馈速度慢，极大影响了管理的整体效果。因此，建立一个高效、便捷的小区物业管理系统已成为迫切需求。现有的小区物业管理解决方案普遍采用人工操作和简单的信息化管理方式，缺乏统一的管理平台，存在系统功能不全、数据处理能力弱、用户体验差等问题。

面试突击-多线程和IO专题(至尊典藏版)

人生若只初相见@的博客

09-18

1842

金九银十多线程和IO大厂面试专题

Java8的Optional简介

duke_ding2的博客

09-17

1037

Java8的Optional简介

Abaqus 2024百度云下载：附中文安装包+教程

最新发布

Fan240828的博客

09-21

491

Abaqus有两个求解器–Abaqus/Standard和Abaqus/Explicit，两个求解器之间可以传递数据，以及统一的人机交互前后处理模块–Abaqus/CAE。Abaqus/Explicit可以模拟高度非线性动力学和准静态分析（可以考虑绝热效应）完全耦合瞬态-位移分析、声固耦合分析，还可以进行退火过程模拟，及冲压成型的回弹分析。Abaqus/CAE是人机交互前后处理器，能将建模，分析、工作管理以及结果显示集成于一个统一的界面中，使得初学者易于学习，而经验丰富的用户工作效率会更高。

python tkinter

Waller_的博客

09-16

672

GUI编程就是编写一个个组件，界面由组件组成，组件内又可以创建组件，这种组件即为容器。基于tkinter创建 GUI基本四步：窗口->组件->布局->事件。通过与组件绑定，获取组件所触发的事件。管理组件的大小位置样式。

旋转链表问题（python3）

weixin_51924589的博客

09-16

471

直接考虑链表的分离与合并，从给定的移动位置出发，找出分割结点的位置，断开链表，最后将分割出来的另一个链表的尾结点连接到原链表的头结点，完成链表的旋转。给你一个链表的头节点 head ，旋转链表，将链表每个节点向右移动 k 个位置。输入：head = [1,2,3,4,5], k = 2。输出：[4,5,1,2,3]

python-简单的数据结构

2401_83954530的博客

09-18

931

当执行 6 操作时，第一行先输出当前的个数，然后从头到尾按顺序输出，每两个元素之间用一个空格隔开，末尾不能有空格。3，删除：remove(),del 语句,pop(),filter(),clear(),切片操作，列表推导式。2，添加：insert(),append(),extend(),索引添加。只有一组数据，第一行 n,m 代表最大数据数目和操作次数。对于 100% 的数据，保证 1≤n,m,a≤105。一开始该容器为空，有以下七种操作。列表的操作：素引，添加，删除，替换。1，索引：正索引，负索引。