简单爬虫编写

最新推荐文章于 2024-07-17 09:15:39 发布

Taylor George

最新推荐文章于 2024-07-17 09:15:39 发布

阅读量295

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_43350003/article/details/104090398

版权

简单的爬虫

简单的爬虫很好写，直接使用urllib即可编写。

代码实战

#简单爬虫的编写
import urllib.request
data = urllib.request.urlopen("http://www.baidu.com").read()
print(data)

爬取豆瓣网站的出版社信息，url是https://read.douban.com/provider/all。首先我们打开这个网址，查看其网页源代码如下图：豆瓣出版社网页
利用网页搜索框CTRL + F，搜索“安徽文艺出版社”如下图：
在这里插入图片描述
发现所有的出版社信息都被div包裹着，所以正则表达式可以写成’<‘div class=“name”>(.*?)</div’>’。写完正则表达式后，接下来的步骤就简单得多了。

代码实战

import requests
import re

pat = '<div class="name">(.*?)</div>'
url = "https://read.douban.com/provider/all"
headers = {
    'user-agent': 'Mozilla/5.0'
}
string = requests.get(url, headers=headers).text
rst = re.compile(pat).findall(string)
print(rst)

输出结果

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Taylor George

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
简单爬虫编写

简单的爬虫简单的爬虫很好写，直接使用urllib即可编写。代码实战#简单爬虫的编写import urllib.requestdata = urllib.request.urlopen("http://www.baidu.com").read()print(data)...
复制链接

扫一扫