python之简单爬虫(爬取豆瓣出版社)

环境准备:
1.python 3.0+
2.豆瓣出版社网址 https://read.douban.com/provider/all

ok,开始我们的实验
1.打开浏览器,输入网址,右击网页,查看网页源码,这里我用的是谷歌浏览器
这里写图片描述
2.看上图我们发现许多出版社名称,接下来我们查找一个出版社名称,例如重庆大学
观察下图我们发现它们都在一个div标签内,且class=”name” ,所以,我们开始编写代码
这里写图片描述

3.代码

import urllib.request
import re
import os
url = "https://read.douban.com/provider/all"  #获取url
pat = '<div class="name">(.*?)</div>'  #匹配规则
data = urllib.request.urlopen(url).read().decode("utf-8") #读取网页的内容并解码
relut = re.compile(pat).findall(data)       #会返回一个列表
file = open(r"C:\Users\123\豆瓣出版社.txt", "w", encoding="utf-8")  #这里我定义了一个自己的存储路径,大家可以根据自己的路径修改
for i in relut:
    file.write(i)        #将出版社名称写入文件
    file.write("\n")    #表示换行

4.最后在你的存储目录下打开文件就可以查看内容了!

这里写图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值