Python的基本操作

Beautiful Soup

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)
  1. 按照标准的缩进格式的结构输出:soup.prettify()
  2. 获得第一个寻找的标签 soup.p
  3. 获得标签之间的内容 soup.p.string
  4. 获得寻找标签的父标签 soup.title.parent
  5. 获得所有的标签 soup.find_all(‘a’)
  6. 得到元素的值 soup.find(title=“爱思助手”).get(‘class’)
  7. 从文档中获取所有文字内容soup.get_text()
  8. 任何HTML或XML文档都有自己的编码方式,比如ASCII 或 UTF-8,但是使用Beautiful Soup解析后,文档都被转换成了Unicode;
  9. 自动检测识识别文档的编码 soup.original_encoding
  10. 机器的解析方式 BeautifulSoup(markup, “html.parser”)
  11. 指定被解析的文件的编码方式 BeautifulSoup(markup, from_encoding=“iso-8859-8”)
  12. 取得标签的某个属性值 p[‘class’]
  13. sttribute 的属性值的修改和删除 del tag[‘class’]; tag[‘class’]=‘verybold’

find

  1. find( name , attrs , recursive , text , **kwargs )
  2. find() 方法直接返回结果,没有找到结果返回None

find_all()

  1. find_all( name , attrs , recursive , text , **kwargs )
  2. find_all() 方法的返回结果是值包含一个元素的列表,没有找到返回一颗空列表
  3. name 为标签的名字
  4. attrs 为根据属性来进行寻找,可以是字典
  5. recursive =False 可以只搜索直接子节点
  6. text 根据文本进行筛选
  7. limit 使用参数限制返回结果的数量 soup.find_all(“a”, limit=2)
  8. find_all() 方法的返回结果是值包含一个元素的列表
  9. find_all(‘b’)正确 find_all(‘class’)错误 只能寻找标签名
  10. find_all(re.compile(‘t’))和正则表达式结合
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值