Spider-2

LXML库

  • python的HTML/XML的解析器
  • 文档:lxml.de/index.html
  • 功能:
    • 解析HTML
    • 文件读取
    • etree和XPath的配合使用

BeautifulSoup4 CSS选择器

  • 几个常用提取信息工具的比较:

    • 正则:很快,不好用,不需安装
    • beautifulsoup:慢,使用简单,安装简单
    • lxml:比较慢,使用简单,安装一般
  • 四大对象

    • Tag
      • 对应Html中的标签
      • 可以通过soup.tag_name
      • tag两个重要属性
        • name
        • attrs
    • Navigablestring
      • 获取标签内部的文字
    • BeautifulSoup
      • 表示的是一个文档的内容,大部分可以把它当做tag对象
    • Comment
      • 特殊类型的Navigablestring对象
      • 对其输出不包括注释符号
    • 遍历文档对象
      • contents:tag的子节点以列表的方式输出
      • children:子节点以迭代形式返回
      • descendants:所有子孙节点
      • string
    • 搜索文档对象
      • find_all(name,attrs,recursive,text,**kwargs)
        • name:按照哪个字符串搜索,可以传入的内容为
          • 字符串
          • 正则表达式
          • 列表
        • keyword参数,可以用来表示属性
        • text:对应tag文档的值
  • CSS选择器

    • 使用soup.select,返回一个列表
    • 通过标签名:soup.select("title")
    • 通过类名:soup.select(".content")
    • id查找:soup.select("#name_id")
    • 组合查找:soup.select("div #input_content")
    • 属性查找:soup.select("img[class='photo']")
    • 获取tag内容:tag.get_text

转载于:https://juejin.im/post/5c97a0a9e51d45201a196500

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值