python爬虫实现豆瓣数据的爬取

最新推荐文章于 2025-09-01 22:43:48 发布

原创

最新推荐文章于 2025-09-01 22:43:48 发布 · 2.2k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#爬取豆瓣页面信息

本文介绍了如何在Python3.7环境下使用urllib和re模块爬取豆瓣阅读页面的出版社信息，并将数据存储到本地txt文件。此外，还提到了利用requests库和BeautifulSoup解析器抓取豆瓣文学部分的更多数据，包括书名、作者、出版社等，并通过time模块防止爬虫过快，最后使用pandas将数据保存到csv文件。

本文利用urllib在python3.7的环境下实现豆瓣页面的爬取！

用到的包有urllib与re两个模块，具体实现如下！

import urllib.request
import re
import ssl

url = "https://read.douban.com/provider/all"

def doubanread(url):
    ssl._create_default_https_context = ssl._create_unverified_context
    data = urllib.request.urlopen(url).read()
    data = data.decode("utf-8")
    pat = '<div class="name">(.*?)</div>'
    mydata = re.compile(pat).findall(data)
    return mydata

def writetxt(mydata):
    fw = open("test.txt","w")
    for i in range(0,len(mydata)):
        fw.write(mydata[i] + "\n")
    fw.close()

if __name__ == '__main__':
    datatest = doubanread(url)
    writetxt(datatest)

本文主要实现爬取豆瓣阅读页面的出版社信息的爬取，将所有出版社写入到一个txt文件并保存到本地！

下面是另一个版本的抓取，用于抓取豆瓣文学部分的数据，包括数名、作者、出版社、出版时间、售价、评分等内容！

本次抓取利用requests库抓取网页代码；Beautiful解析网页数据；由于此版本可以用来抓取多页数据，为防止爬虫被禁，加入时间，引入time模块；数据最终保存在csv中，在抓取的过程中将数据保存在列表中，最终利用pandas，实现数据形式的转换，保存在csv文件中！

还