学习笔记
目录
一. 正则表达式
二. 抓取网页的思路
三. BeautifulSoup类(HTML解析库)
一. 正则表达式
python的re库:
- .match()方法:两个参数分别是需传入的正则表达式和需要匹配的字符串,是从头位置开始匹配的(细节:标记匹配目标、贪婪与非贪婪、修饰符、转义匹配等),返回match对象;
- .search()方法:用途如:利用正则表达式获取第一对“作者、书名”对应信息,返回match对象;
- .findall()方法:匹配所有符合正则表达式的字符串,并以列表形式返回。用途如:利用正则表达式获取所有“作者、书名”对应信息;
- .split()方法:将一个字符串按照正则表达式匹配结果进行分割,返回列表类型;
- .sub()方法:使用某一字符串替换字符串中的某一部分,如将字符串中所有数字替换为空(即‘ ’),使其被去除,返回改变后的字符串;
- .compile()方法:用途如:封装正则表达式,这样对于相同类型的字符串处理就不用一 一特定地编写正则表达式了
二. 抓取网页的思路
- 分析网页的HTML码格式
- 抓取首页
- 正则提取
- 写入文件
- 整合代码
- 分页爬取
- 运行结果
三. BeautifulSoup类(HTML解析库)
代码格式:
from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>data<p>', html.parser)
返回的soup类型的的基本元素:
- tag:标签名—用法如:soup.p或soup.a等
- Name:标签的名字—用法如:soup.p.name
- Attributes:标签属性(字典形式)—用法如:soup.p.attrs
- NavigableString:两标签中间内容—用法如:soup.a.string
- Comment:两标签中间的注释部分
标签树的遍历:
- 下行遍历:①.contents;②.children;③.descendants(其中①为列表类型;而②③为迭代类型,与for_in搭配使用)
- 上行遍历:①.parent;②.parents
- 平行遍历:①.next_sibling;②.previous_sibling;③.next_siblings;④.previous_siblings
.find_all()方法:
注:对soup对象使用,进行信息提取
.find_all(name, attrs, recursive, string, **kwargs)
返回一个列表类型,储存查询结果。
- name:对标签名称的检索字符串
- attrs:对标签属性值的检索字符串,可标注属性检索
- recursive:是否对子孙全部检索,默认True
- string:<>…</>中字符串区域的检索字符串
(注:还有一些扩展方法。)
bs4库的prettify()方法:
作用:prettify()方法能够美化修饰HTML码,在各个标签或内容后加一个’\n’,借此将其美化,把它美化后print出来,就变成一个规范的HTML码了