豆瓣爬虫：根据tag 爬书籍，实现urllib、BeautifulSoup、导出excel

最新推荐文章于 2023-07-23 23:30:24 发布

21989939

最新推荐文章于 2023-07-23 23:30:24 发布

阅读量434

点赞数

分类专栏：【Python】编程指南文章标签： python

本文链接：https://blog.csdn.net/qq_21989939/article/details/79701633

版权

本文介绍如何使用Python的urllib和BeautifulSoup库爬取豆瓣网站上的书籍信息，特别是依据特定tag筛选书籍，并将数据整理成Excel文件进行保存，详细解析爬虫实现过程。

摘要由CSDN通过智能技术生成

豆瓣爬虫：根据tag 爬书籍，实现urllib、BeautifulSoup、导出excel

import time
import urllib
import urllib.parse
import numpy as np
from bs4 import BeautifulSoup
import random
from openpyxl import Workbook

hds = [{
  'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}, \
       {
  
           'User-Agent': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.12 Safari/535.11'}, \
       {
  'User-Agent': 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)'}]


def bookListByTags(tags):
    return_list = []

    for tag in tags:
        page = 0