Python爬虫篇--3

学习笔记


目录

一. 正则表达式
二. 抓取网页的思路
三. BeautifulSoup类(HTML解析库)


一. 正则表达式

python的re库:

  • .match()方法:两个参数分别是需传入的正则表达式和需要匹配的字符串,是从头位置开始匹配的(细节:标记匹配目标、贪婪与非贪婪、修饰符、转义匹配等),返回match对象;
  • .search()方法:用途如:利用正则表达式获取第一对“作者、书名”对应信息,返回match对象;
  • .findall()方法:匹配所有符合正则表达式的字符串,并以列表形式返回。用途如:利用正则表达式获取所有“作者、书名”对应信息;
  • .split()方法:将一个字符串按照正则表达式匹配结果进行分割,返回列表类型;
  • .sub()方法:使用某一字符串替换字符串中的某一部分,如将字符串中所有数字替换为空(即‘ ’),使其被去除,返回改变后的字符串;
  • .compile()方法:用途如:封装正则表达式,这样对于相同类型的字符串处理就不用一 一特定地编写正则表达式了

二. 抓取网页的思路

  • 分析网页的HTML码格式
  • 抓取首页
  • 正则提取
  • 写入文件
  • 整合代码
  • 分页爬取
  • 运行结果

三. BeautifulSoup类(HTML解析库)

代码格式:

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data<p>', html.parser)

返回的soup类型的的基本元素:

  • tag:标签名—用法如:soup.p或soup.a等
  • Name:标签的名字—用法如:soup.p.name
  • Attributes:标签属性(字典形式)—用法如:soup.p.attrs
  • NavigableString:两标签中间内容—用法如:soup.a.string
  • Comment:两标签中间的注释部分

标签树的遍历:

  • 下行遍历:①.contents;②.children;③.descendants(其中①为列表类型;而②③为迭代类型,与for_in搭配使用)
  • 上行遍历:①.parent;②.parents
  • 平行遍历:①.next_sibling;②.previous_sibling;③.next_siblings;④.previous_siblings

.find_all()方法:

注:对soup对象使用,进行信息提取

.find_all(name, attrs, recursive, string, **kwargs)

返回一个列表类型,储存查询结果。

  • name:对标签名称的检索字符串
  • attrs:对标签属性值的检索字符串,可标注属性检索
  • recursive:是否对子孙全部检索,默认True
  • string:<>…</>中字符串区域的检索字符串
    (注:还有一些扩展方法。)

bs4库的prettify()方法

作用:prettify()方法能够美化修饰HTML码,在各个标签或内容后加一个’\n’,借此将其美化,把它美化后print出来,就变成一个规范的HTML码了

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值