python网络爬虫笔记之信息提取

本文介绍了Python网络爬虫中使用bs4库进行信息提取的方法,包括find_all()函数的使用,如通过name、attrs属性检索HTML标签,以及递归搜索的控制。还展示了实际代码示例,如查找指定标签、属性和正则表达式的应用。
摘要由CSDN通过智能技术生成

信息组织与提取

一、信息标记

HTML:
          通过预定义的<>..</>标签形式来组织不同类型的信息

信息标记的种类有三种 Xml,JSON,YAML

Xml: 扩展标记语言,与html格式很像
         通过 标签形式来构造所有的信息,如果标签中有内容时我们用一对标签来表达: <name>...</name>
          如果标签中没有内容时,我们用一对尖括号来表达<name/>
         同时可以增加注释:<! --注释-- >

JSON:  
          采用 有类型键值的方式:“key”:"value"
          如果对应的值的部分有多个,则采用方括号: "key": ["value1',"value2']  并且中间用逗号隔开
          同时键值对可以进行嵌套,此时采用大括号: “key":{"subkey":"subvalue"}

YAML:
          无类型键值对,采用缩进的方式表示所属关系,这一点和python很像
         |表示整块内容,#表示注释的内容
         key:value
         key:
         -value1
         -value2      #横线表示并列 
         key:
             subkey:subvalue


二、信息提取的一般方法

信息提取是指从信息标记的文本中提取所需要的内容
有三种:
1.根据标记形式,利用bs4库遍历标签树的方法先解析出标记形式再提取关键字
2.不关注标记形式,采用文本查找函数,直接搜索关键字
3采用融合的方式,结合形式解析和搜索方法提取关键信息
xml J
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值