python之简单爬虫（爬取豆瓣出版社）

最新推荐文章于 2021-02-10 18:26:17 发布

红酒味蛋糕_

最新推荐文章于 2021-02-10 18:26:17 发布

阅读量1.7k

点赞数

分类专栏： python基础笔记

转载请保留出处，更多干货请关注微信公众号，句芒实验室，感谢！

本文链接：https://blog.csdn.net/Key_book/article/details/80244033

版权

python基础笔记专栏收录该内容

27 篇文章 5 订阅

订阅专栏

环境准备：
1.python 3.0+
2.豆瓣出版社网址 https://read.douban.com/provider/all

ok，开始我们的实验
1.打开浏览器，输入网址，右击网页，查看网页源码，这里我用的是谷歌浏览器
这里写图片描述
2.看上图我们发现许多出版社名称，接下来我们查找一个出版社名称，例如重庆大学
观察下图我们发现它们都在一个div标签内，且class=”name” ,所以，我们开始编写代码

3.代码

import urllib.request
import re
import os
url = "https://read.douban.com/provider/all"  #获取url
pat = '<div class="name">(.*?)</div>'  #匹配规则
data = urllib.request.urlopen(url).read().decode("utf-8") #读取网页的内容并解码
relut = re.compile(pat).findall(data)       #会返回一个列表
file = open(r"C:\Users\123\豆瓣出版社.txt", "w", encoding="utf-8")  #这里我定义了一个自己的存储路径，大家可以根据自己的路径修改
for i in relut:
    file.write(i)        #将出版社名称写入文件
    file.write("\n")    #表示换行