Spider-2

最新推荐文章于 2024-07-12 16:16:27 发布

weixin_34401479

最新推荐文章于 2024-07-12 16:16:27 发布

阅读量120

点赞数

文章标签： python

原文链接：https://juejin.im/post/5c97a0a9e51d45201a196500

版权

LXML库

python的HTML/XML的解析器
文档：lxml.de/index.html
功能：
- 解析HTML
- 文件读取
- etree和XPath的配合使用

BeautifulSoup4 CSS选择器

几个常用提取信息工具的比较：
- 正则：很快，不好用，不需安装
- beautifulsoup：慢，使用简单，安装简单
- lxml：比较慢，使用简单，安装一般
四大对象
- Tag
  - 对应Html中的标签
  - 可以通过soup.tag_name
  - tag两个重要属性
    - name
    - attrs
- Navigablestring
  - 获取标签内部的文字
- BeautifulSoup
  - 表示的是一个文档的内容，大部分可以把它当做tag对象
- Comment
  - 特殊类型的Navigablestring对象
  - 对其输出不包括注释符号
- 遍历文档对象
  - contents：tag的子节点以列表的方式输出
  - children：子节点以迭代形式返回
  - descendants：所有子孙节点
  - string
- 搜索文档对象
  - find_all(name,attrs,recursive,text,**kwargs)
    - name：按照哪个字符串搜索，可以传入的内容为
      - 字符串
      - 正则表达式
      - 列表
    - keyword参数，可以用来表示属性
    - text：对应tag文档的值
CSS选择器
- 使用soup.select，返回一个列表
- 通过标签名：soup.select("title")
- 通过类名：soup.select(".content")
- id查找：soup.select("#name_id")
- 组合查找：soup.select("div #input_content")
- 属性查找：soup.select("img[class='photo']")
- 获取tag内容：tag.get_text

转载于:https://juejin.im/post/5c97a0a9e51d45201a196500

weixin_34401479

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spider-2

LXML库python的HTML/XML的解析器文档：lxml.de/index.html功能：解析HTML文件读取etree和XPath的配合使用BeautifulSoup4 CSS选择器几个常用提取信息工具的比较：正则：很快，不好用，不需安装beautifulsoup：慢，使用简单，安装简单lxml：比较慢，使用简单，安装一般四大对象Tag...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。