python爬虫 BeautifulSoup

简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:Tag,NavigableString  BeautifulSoup   Comment  

1.Tag 是什么?通俗点讲就是 HTML 中的一个个标签

  利用 soup加标签名轻松地获取这些标签的内容,是不是感觉比正则表达式方便多了?soup.title 得到的是title标签,soup.p 得到的是文档中的第一个p标签,要想得到所有标签,得用find_all函数。find_all 函数返回的是一个序列,可以对它进行循环,依次得到想到的东西.。

  对于 Tag,它有两个重要的属性,是 name 和 attrs

2.NavigableString

  既然我们已经得到了标签的内容,那么问题来了,我们要想获取标签内部的文字怎么办呢?很简单,用 .string 即可

3.BeautifulSoup

  BeautifulSoup 对象表示的是一个文档的全部内容.大部分时候,可以把它当作 Tag 对象,是一个特殊的 Tag

4. Comment  

  Comment 对象是一个特殊类型的 NavigableString 对象,其实输出的内容仍然不包括注释符号

5.遍历文档树

  直接子节点:

  .contents

  tag 的 .content 属性可以将tag的子节点以列表的方式输出。可以使用 [num] 的形式获得。使用contents向后遍历树,使用parent向前遍历树

  .children

  它返回的不是一个 list,不过我们可以通过遍历获取所有子节点。我们打印输出 .children 看一下,可以发现它是一个 list 生成器对象。

  可以使用list可以将其转化为列表。当然可以使用for 语句遍历里面的孩子。

  所有子孙节点:

6.搜索文档树

     最常用的是find_all()函数

7.CSS选择器

    在写 CSS 时,标签名不加任何修饰,类名前加点,id名前加 #

 在这里我们也可以利用类似的方法来筛选元素,用到的方法是 soup.select(),返回类型是 list

    1.通过标签名查找

    2.通过类名查找

    3.通过id查找

    4.组合查找

    5.属性查找

 

参考:http://blog.csdn.net/freeking101/article/details/60886125

 

转载于:https://www.cnblogs.com/shunyu/p/8516628.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值