2019-12-03 Python3 作业爬取豆瓣读书所有出版商信息

最新推荐文章于 2024-04-04 09:58:41 发布

minyang_yu

最新推荐文章于 2024-04-04 09:58:41 发布

阅读量919

点赞数

分类专栏： Python3

本文链接：https://blog.csdn.net/minyang_yu/article/details/103366505

版权

本文记录了使用Python3的urllib和requests库分别爬取豆瓣读书所有出版商信息的过程，详细介绍了两种方法的实现步骤，旨在探讨和分享网络爬虫技术在实际操作中的应用。

摘要由CSDN通过智能技术生成

用urllib去做

#会触发反爬 HttpError 418:
pattern = '<div class="name">(\w+)</div>'
import urllib.request
try:
    web = urllib.request.urlopen('https://read.douban.com/provider/all').read()
except Exception as er:
    print(er)
result = re.complie(pattern).findall((web))
print(result)
>>>HTTP Error 418:

用requests去做

import requests
import random
url = 'https://read.douban.com/provider/all'

#添加一些代理
user_list = ["Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.7 (KHTML, like Gecko) Chrome/7.0.514.0 Safari/534.7",
    "Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US) AppleWebKit/534.14 (KHTML, like Gecko) Chrome/9.0.601.0 Safari/534.14",
    "Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.14 (KHTML, like Gecko) Chrome/10.0.601.0 Safari/534.14",
    "Mozilla/