1、观察分析要爬取的图书网站页面,举例:https://www.bookresource.net/ (随便选的)
通过选择图书分类、翻页,发现 pdf-1/list-1 的数字分别表示不同的 图书类别 与 页码
2、单页分析,用BeautifulSoup库解析网页,提取关键信息构造结构化数据
3、可将数据存入数据库或写入本地文档,本文写入excel
代码:
# -*- coding=utf-8 -*-
import requests
from bs4 import BeautifulSoup
import xlwt,xlrd
from xlutils.copy import copy
import csv
import time
'''
# 观察发现,图书页面地址 https://www.bookresource.net/pdf-1/list-1.html
# pdf-1 :表示第一个分类
# list-1 :表示第一页
# pdf-n/list-n : 单页对应图书数据22条,下面循环用到22
#
'''
url_base='https://www.bookresource.net/' # 网页地址
def getHTMLText(url):
# 爬取网页通用代码框架(获取网页html)
try:
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom