有关BeautifulSoup杂记

BeautifulSoup

  • BeautifulSoup对象分为Tag,NavigableString,BeautifulSoup,Comment 。

  • Tag

    • Soup.Tag。其中Tag 表示HTML中标签名,例如title,p,a,等。
      print(soup.title)
    BeautifulSoup技术
    • 返回完整的标签内容,包括标签的属性,内容以及子标签。

    • 相同标签有多个,只返回第一个。

    • Soup.name.获取文档树的标签名称。
      print(Soup.name)
      [document]

    • soup.p.attrs返回标签p的所有属性
      多值属性返回类型是list

    • for link in soup.find_all(‘a’):
      print(link.get(‘href’))
      获取标签a的超链接

    • for a in soup.find_all(‘a’):
      print(a.get_text())
      获取文字内容

  • print(soup.title.string)或使用 print(str(soup.title.string))或print(unicode(soup.title.string))
    BeautifulSoup技术

  • BeautifulSoup对象表示文档的的全部内容。解析网页,表示网页源码。

  • comment = Soup.b.string
    print(comment)
    读取注释内容

  • contents,children获取标签直接子节点,不同的是children返回一个迭代对象。

  • 只有一个子标签(没有换行),获取子标签的节点内容,使用string输出;有多个子标签(换行算一个子标签)或输出none。

  • for content in soup.stripped_string:
    print(unicode(content))
    去除标签内容多余的空格,换行。

  • 获取父亲节点parent,获取所有父亲节点:
    for parent in content.parents:
    print(parent)

  • next_sibling获取下一个兄弟节点;previous.sibling获取上一个兄弟节点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值