python爬虫:爬取豆瓣阅读出版社数据

本文介绍了Python爬虫的基础知识,重点讲解了正则表达式的重要概念,如原子、元字符、模式修正符等。通过实例展示了如何匹配网址,并详细阐述了正则表达式函数的使用,如`re.search()`和`re.findall()`。文章以爬取并保存豆瓣阅读所有出版社信息及作品数量为例,演示了正则表达式在爬虫中的实际应用,数据被保存为txt文件和sqlite数据库。
摘要由CSDN通过智能技术生成

1.写在前面

作为一名数据分析狮,掌握基础的爬虫技能必不可少。若需要查看爬取豆瓣阅读出版社请查看文章最后,前面部分为基础介绍。

2.网络爬虫

爬虫类型很多,常用的有通用网络爬虫(爬取网站所有内容)和聚焦网络爬虫(针对某一特定需求)

3爬虫原理

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ayGTorSC-1584147798547)(attachment:image.png)]

4. 正则表达式(重要)

4.1 什么是正则表达式:

是一种进行数据筛选的表达式。如果我们想提取需要的数据,可以通过表达式进行提取。
正则表达式的模块:re模块

5. 原子:

正则表达式的最基本的组成单位。每个正则表达式中至少包含一个原子。

常见的原子类型:

普通字符作为原子;非打印字符;通用字符;原子表

5.1 打印字符作为原子。普通中英文都属于打印字符。

#调用正则模块
import re
#定义规则
pat1='常小宇'
string1='中国传媒大学常小宇'
#使用re模块的search函数找到指定的内容,第一个参数是规则,第二个参数是总的字符串
ret1=re.search(pat1,string1)
print(ret1)
<re.Match object; span=(6, 9), match='常小宇'>
#调用正则模块
import re
#定义规则
pat2='cxy'
string2='zhongchuan'
#使用re模块的search函数找到指定的内容,第一个参数是规则,第二个参数是总的字符串
ret2=re.search(pat2,string2)
print(ret2)
#此时总字符串里不满足规则,所有没有输出
None

5.2 非打印字符作为原子。非打印字符指不会打印显示的字符,例如:

\n:换行符号; \t :tab符进行缩进对齐

import re
pat3='\n'
#使用三引号才能在字符串里出现换行
string3='''zhongchuan
cxy'''
ret3=re.search(pat3,string3)
print(ret3)
<re.Match object; span=(10, 11), match='\n'>

5.3 通用字符作为原子。

例如:

\w:任意的一个字母、数字或下划线 (即非特殊字符);\d: 任意一个十进制数 ;\s: 空白字符 ;

\W(大写):与 \w 相反的字符,即除了字母、数字或下划线以外的任意一个字符 ; \D:除了十进制数以外的任意一个字符; \S:除了空白字符以外的任意一个字符

import re 
pat4='\w\dcxy\w' 
string4='hgsajhakjhsku'
ret4=re.search(pat4,string4)
print(ret4)
None
import re 
pat5='\w\dcxy\w' 
string5='hgsajhak1cxyjhsku'
ret5=re.search(pat5,string5)
print(ret5)
<re.Match object; span=(7, 13), match='k1cxyj'>
import re  
pat6='\w\dcxy\w' 
string6='hgsajhak123cxyjhsku'
ret6=re.search
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值