1.写在前面
作为一名数据分析狮,掌握基础的爬虫技能必不可少。若需要查看爬取豆瓣阅读出版社请查看文章最后,前面部分为基础介绍。
2.网络爬虫
爬虫类型很多,常用的有通用网络爬虫(爬取网站所有内容)和聚焦网络爬虫(针对某一特定需求)
3爬虫原理
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ayGTorSC-1584147798547)(attachment:image.png)]
4. 正则表达式(重要)
4.1 什么是正则表达式:
是一种进行数据筛选的表达式。如果我们想提取需要的数据,可以通过表达式进行提取。
正则表达式的模块:re模块
5. 原子:
正则表达式的最基本的组成单位。每个正则表达式中至少包含一个原子。
常见的原子类型:
普通字符作为原子;非打印字符;通用字符;原子表
5.1 打印字符作为原子。普通中英文都属于打印字符。
#调用正则模块
import re
#定义规则
pat1='常小宇'
string1='中国传媒大学常小宇'
#使用re模块的search函数找到指定的内容,第一个参数是规则,第二个参数是总的字符串
ret1=re.search(pat1,string1)
print(ret1)
<re.Match object; span=(6, 9), match='常小宇'>
#调用正则模块
import re
#定义规则
pat2='cxy'
string2='zhongchuan'
#使用re模块的search函数找到指定的内容,第一个参数是规则,第二个参数是总的字符串
ret2=re.search(pat2,string2)
print(ret2)
#此时总字符串里不满足规则,所有没有输出
None
5.2 非打印字符作为原子。非打印字符指不会打印显示的字符,例如:
\n:换行符号; \t :tab符进行缩进对齐
import re
pat3='\n'
#使用三引号才能在字符串里出现换行
string3='''zhongchuan
cxy'''
ret3=re.search(pat3,string3)
print(ret3)
<re.Match object; span=(10, 11), match='\n'>
5.3 通用字符作为原子。
例如:
\w:任意的一个字母、数字或下划线 (即非特殊字符);\d: 任意一个十进制数 ;\s: 空白字符 ;
\W(大写):与 \w 相反的字符,即除了字母、数字或下划线以外的任意一个字符 ; \D:除了十进制数以外的任意一个字符; \S:除了空白字符以外的任意一个字符
import re
pat4='\w\dcxy\w'
string4='hgsajhakjhsku'
ret4=re.search(pat4,string4)
print(ret4)
None
import re
pat5='\w\dcxy\w'
string5='hgsajhak1cxyjhsku'
ret5=re.search(pat5,string5)
print(ret5)
<re.Match object; span=(7, 13), match='k1cxyj'>
import re
pat6='\w\dcxy\w'
string6='hgsajhak123cxyjhsku'
ret6=re.search