python爬取图书信息

最新推荐文章于 2024-04-16 03:06:34 发布

cc2014cc

最新推荐文章于 2024-04-16 03:06:34 发布

阅读量6.3k

点赞数 3

分类专栏： Python 文章标签： python

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/u014011968/article/details/107937790

版权

1、观察分析要爬取的图书网站页面，举例：https://www.bookresource.net/ （随便选的）

通过选择图书分类、翻页，发现 pdf-1/list-1 的数字分别表示不同的图书类别与页码

2、单页分析，用BeautifulSoup库解析网页，提取关键信息构造结构化数据

3、可将数据存入数据库或写入本地文档，本文写入excel

代码：

# -*- coding=utf-8 -*-
import requests
from bs4 import BeautifulSoup
import xlwt,xlrd
from xlutils.copy import copy
import csv
import time


'''
# 观察发现，图书页面地址 https://www.bookresource.net/pdf-1/list-1.html
# pdf-1 ：表示第一个分类
# list-1  ：表示第一页
# pdf-n/list-n ： 单页对应图书数据22条，下面循环用到22
# 
'''


url_base='https://www.bookresource.net/'    # 网页地址


def getHTMLText(url):
    # 爬取网页通用代码框架（获取网页html）
    try:
        headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrom

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

cc2014cc

关注关注

3
点赞
踩
42

收藏

觉得还不错? 一键收藏
1
评论
python爬取图书信息

1、观察分析要爬取的图书网站页面，举例：https://www.bookresource.net/ （随便选的）通过选择图书分类、翻页，发现 pdf-1/list-1 的数字分别表示不同的图书类别与页码2、单页分析，用BeautifulSoup库解析网页，提取关键信息构造结构化数据3、可将数据存入数据库或写入本地文档，本文写入excel代码：# -*- coding=utf-8 -*-import requestsfrom bs4 import BeautifulSoup..
复制链接

扫一扫