python网络爬虫笔记之信息提取

最新推荐文章于 2022-03-28 17:56:48 发布

哈哈哈哈士奇VIP

最新推荐文章于 2022-03-28 17:56:48 发布

阅读量514

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiaowosiye/article/details/78442139

版权

本文介绍了Python网络爬虫中使用bs4库进行信息提取的方法，包括find_all()函数的使用，如通过name、attrs属性检索HTML标签，以及递归搜索的控制。还展示了实际代码示例，如查找指定标签、属性和正则表达式的应用。

摘要由CSDN通过智能技术生成

信息组织与提取

一、信息标记

HTML:

通过预定义的<>..</>标签形式来组织不同类型的信息

信息标记的种类有三种 Xml,JSON,YAML

Xml: 扩展标记语言，与html格式很像

通过 标签形式来构造所有的信息，如果标签中有内容时我们用一对标签来表达： <name>...</name>

如果标签中没有内容时，我们用一对尖括号来表达<name/>

同时可以增加注释：<! --注释-- >

JSON：

采用 有类型键值的方式：“key”:"value"

如果对应的值的部分有多个，则采用方括号： "key": ["value1',"value2'] 并且中间用逗号隔开

同时键值对可以进行嵌套，此时采用大括号： “key":{"subkey":"subvalue"}

YAML:

无类型键值对，采用缩进的方式表示所属关系，这一点和python很像

|表示整块内容，#表示注释的内容

key:value

key:

-value1

-value2 #横线表示并列

key:

subkey:subvalue

二、信息提取的一般方法

信息提取是指从信息标记的文本中提取所需要的内容

有三种：

1.根据标记形式，利用bs4库遍历标签树的方法先解析出标记形式再提取关键字

2.不关注标记形式，采用文本查找函数，直接搜索关键字

3采用融合的方式，结合形式解析和搜索方法提取关键信息

xml J

最低0.47元/天解锁文章

哈哈哈哈士奇VIP

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。