python爬虫：爬取豆瓣阅读出版社数据

最新推荐文章于 2024-07-21 22:25:59 发布

数据分析阿宇君

最新推荐文章于 2024-07-21 22:25:59 发布

阅读量1.4k

点赞数 4

分类专栏： Python爬虫文章标签： python 正则表达式数据库数据分析

本文链接：https://blog.csdn.net/weixin_43412569/article/details/104854619

版权

本文介绍了Python爬虫的基础知识，重点讲解了正则表达式的重要概念，如原子、元字符、模式修正符等。通过实例展示了如何匹配网址，并详细阐述了正则表达式函数的使用，如`re.search()`和`re.findall()`。文章以爬取并保存豆瓣阅读所有出版社信息及作品数量为例，演示了正则表达式在爬虫中的实际应用，数据被保存为txt文件和sqlite数据库。

摘要由CSDN通过智能技术生成

1.写在前面

作为一名数据分析狮，掌握基础的爬虫技能必不可少。若需要查看爬取豆瓣阅读出版社请查看文章最后，前面部分为基础介绍。

2.网络爬虫

爬虫类型很多，常用的有通用网络爬虫（爬取网站所有内容）和聚焦网络爬虫（针对某一特定需求）

3爬虫原理

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ayGTorSC-1584147798547)(attachment:image.png)]

4. 正则表达式（重要）

4.1 什么是正则表达式：

是一种进行数据筛选的表达式。如果我们想提取需要的数据，可以通过表达式进行提取。
正则表达式的模块：re模块

5. 原子:

正则表达式的最基本的组成单位。每个正则表达式中至少包含一个原子。

常见的原子类型：

普通字符作为原子；非打印字符；通用字符；原子表

5.1 打印字符作为原子。普通中英文都属于打印字符。

#调用正则模块
import re
#定义规则
pat1='常小宇'
string1='中国传媒大学常小宇'
#使用re模块的search函数找到指定的内容，第一个参数是规则，第二个参数是总的字符串
ret1=re.search(pat1,string1)
print(ret1)

<re.Match object; span=(6, 9), match='常小宇'>

#调用正则模块
import re
#定义规则
pat2='cxy'
string2='zhongchuan'
#使用re模块的search函数找到指定的内容，第一个参数是规则，第二个参数是总的字符串
ret2=re.search(pat2,string2)
print(ret2)
#此时总字符串里不满足规则，所有没有输出

None

5.2 非打印字符作为原子。非打印字符指不会打印显示的字符，例如：

\n：换行符号； \t ：tab符进行缩进对齐

import re
pat3='\n'
#使用三引号才能在字符串里出现换行
string3='''zhongchuan
cxy'''
ret3=re.search(pat3,string3)
print(ret3)

<re.Match object; span=(10, 11), match='\n'>

5.3 通用字符作为原子。

例如：

\w：任意的一个字母、数字或下划线 (即非特殊字符)；\d：任意一个十进制数 ;\s：空白字符；

\W(大写)：与 \w 相反的字符，即除了字母、数字或下划线以外的任意一个字符 ; \D：除了十进制数以外的任意一个字符； \S：除了空白字符以外的任意一个字符

import re 
pat4='\w\dcxy\w' 
string4='hgsajhakjhsku'
ret4=re.search(pat4,string4)
print(ret4)

None

import re 
pat5='\w\dcxy\w' 
string5='hgsajhak1cxyjhsku'
ret5=re.search(pat5,string5)
print(ret5)

<re.Match object; span=(7, 13), match='k1cxyj'>

import re  
pat6='\w\dcxy\w' 
string6='hgsajhak123cxyjhsku'
ret6=re.search

最低0.47元/天解锁文章