python图书数据分析大屏爬虫清洗可视化当当网书籍数据分析 Django框架图书推荐大数据毕业设计（源码+文档）✅-CSDN博客

本文链接：https://blog.csdn.net/vx_biyesheji0001/article/details/146244376

博主介绍：✌全网粉丝10W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战6年之久，选择我们就是选择放心、选择安心毕业✌
> 🍅想要获取完整文章或者源码，或者代做，拉到文章底部即可与我联系了。🍅

点击查看作者主页，了解更多项目！

🍅感兴趣的可以先收藏起来，点赞、关注不迷路，大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助同学们顺利毕业。🍅

1、毕业设计：2025年计算机专业毕业设计选题汇总（建议收藏）✅

2、大数据毕业设计：2025年选题大全深度学习 python语言 JAVA语言 hadoop和spark（建议收藏）✅

🍅感兴趣的可以先收藏起来，点赞、关注不迷路，大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助同学们顺利毕业。🍅

1、项目介绍

技术栈：
Python语言、Django框架、MySQL数据库、requests爬虫、当当图书网、爬虫+清洗+数据分析+Echarts可视化
图书数据分析大屏+爬虫+清洗+可视化、
python图书数据分析大屏+爬虫+清洗+可视化当当网书籍数据分析

2、项目界面

（1）数据可视化分析大屏

在这里插入图片描述

（2）不同类型下价格区间数量占比分析

在这里插入图片描述

（3）不同类型下出版社数量分析占比

在这里插入图片描述

（4）图书信息、图书列表

在这里插入图片描述

（5）后台数据管理

在这里插入图片描述

（7）功能模块菜单
在这里插入图片描述

（8）数据采集爬取

在这里插入图片描述

3、项目说明

1. 数据可视化分析大屏

功能描述：
这是项目的主界面，通过 Echarts 可视化工具将图书数据以图表形式展示，包括价格分布、出版社占比、图书类型等关键信息。用户可以直观地了解图书市场的整体情况。

实现方式：

使用 Python 的 Django 框架搭建后端服务，从 MySQL 数据库中获取数据。
前端通过 Echarts 绘制图表，将数据以直观的可视化形式展示。
数据实时更新，用户可以通过筛选条件（如图书类型、价格区间）动态调整图表内容。

2. 不同类型下价格区间数量占比分析

功能描述：
该模块分析不同图书类型（如小说、科技、教育等）在各个价格区间内的数量占比，帮助用户了解不同类型图书的定价分布。

实现方式：

从数据库中提取图书价格和类型数据。
使用 Python 的数据分析库（如 Pandas）对数据进行清洗和分类。
通过 Echarts 绘制饼图或柱状图，展示不同价格区间内的图书数量占比。

3. 不同类型下出版社数量分析占比

功能描述：
分析不同图书类型中各出版社的图书数量占比，帮助用户了解哪些出版社在特定领域更具影响力。

实现方式：

从数据库中提取图书类型和出版社信息。
使用 Pandas 对数据进行分组和统计。
使用 Echarts 绘制饼图或柱状图，展示各出版社在不同类型的图书市场中的占比情况。

4. 图书信息、图书列表

功能描述：
展示图书的详细信息列表，用户可以查看每本书的名称、作者、出版社、价格、评分等信息。

实现方式：

从数据库中查询图书信息，并通过 Django 模板渲染到前端页面。
提供搜索和筛选功能，用户可以根据书名、作者、类型等条件快速查找图书。
使用分页技术优化用户体验，避免单页加载过多数据。

5. 后台数据管理

功能描述：
管理员可以通过后台管理系统对图书数据进行增删改查操作，确保数据的准确性和完整性。

实现方式：

使用 Django 的 Admin 模块搭建后台管理系统。
定义图书数据模型（如 Book），并配置相应的管理界面。
提供数据导入和导出功能，方便管理员批量处理数据。

6. 功能模块菜单

功能描述：
提供项目的导航菜单，方便用户快速切换到不同的功能模块，如数据可视化、图书列表、数据管理等。

实现方式：

使用前端框架（如 Bootstrap）设计导航栏。
通过路由功能实现模块之间的跳转。
根据用户权限动态显示菜单项，确保用户只能访问其有权限的功能模块。

7. 数据采集爬取

功能描述：
通过爬虫技术从当当网等图书网站采集图书数据，并清洗后存储到 MySQL 数据库中，为后续的分析和可视化提供数据支持。

实现方式：

使用 Python 的 requests 库和 BeautifulSoup 库编写爬虫脚本。
定期运行爬虫任务，获取最新的图书数据。
使用 Pandas 对采集的数据进行清洗和预处理，去除无效数据或重复记录。
将清洗后的数据存储到 MySQL 数据库中，供前端调用。

4、核心代码


import requests
from bs4 import BeautifulSoup
import time
def fun(find,type=None):
    if find:
        if type:
            try:
                return find[0].get(type).strip().replace('\t','').replace('\n','')
            except:
                return ""
        return find[0].text.strip().replace('\t','').replace('\n','')
def getData(url,data,category):
  
    response = requests.get(url=url,headers=headers)
    soup = BeautifulSoup(response.text,'lxml')
    
    li_list = soup.select('#search_nature_rg ul.bigimg li')
    for li in li_list:
        title = fun(li.select('a.pic'),'title').split('（')[0]
        author = li.select('p.search_book_author span')[0].text.strip().replace('\t','').replace('\n','')
        createTime = li.select('p.search_book_author span')[1].text.strip().replace('\t','').replace('\n','')
        press = li.select('p.search_book_author span')[2].text.strip().replace('\t','').replace('\n','')
        now_price = fun(li.select('p.price span.search_now_price'))
        pre_price = fun(li.select('p.price span.search_pre_price'))
        discount = fun(li.select('p.price span.search_discount'))
        detail = fun(li.select('p.detail'))
        star = fun(li.select('p.search_star_line span.search_star_black span'),'style')
        comment_num = fun(li.select('p.search_star_line a.search_comment_num'))
        img_url = fun(li.select('.pic img'),'data-original')
        if img_url:
            img_url = "http:" + img_url
        book_url = fun(li.select('p.name a'),'href')
        if book_url:
            book_url = "http:" + book_url    
        addTime = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime())
        data.append([category,title,author,createTime,press,now_price,pre_price,discount,detail,star,comment_num,img_url,book_url,addTime])
        
def writeData(data):
    with open('./data.csv','w+',encoding='utf-8') as fp:
        fp.write("\t".join(['category','title','author','createTime','press','now_price','pre_price','discount','detail','star','comment_num','img_url','book_url','addTime'])+'\n')
        for item in data:
            fp.write("\t".join([str(i) for i in item])+'\n')
            
if __name__ == '__main__':

    base = 'http://category.dangdang.com/pg{}-cp01.{}.00.00.00.00.html'
    data = []
    # 这个设置爬取多少页
    max_page = 2

    category_code = {'成功/励志':'21','艺术':'07','历史':'36','文学':'05','医学':'56','计算机/网络':'54','经济':'25','社会科学':'30','科普读物':'52','时尚/美妆':'11','哲学/宗教':'28','建筑':'55'}


    for category in category_code:
        for page in range(max_page):
            url  = base.format(page+1,category_code[category])
            try:
                getData(url,data,category)
                print('类别{}第{}页爬取成功!'.format(category,page+1))
                time.sleep(1)
            except:
                print('类别{}第{}页爬取失败!'.format(category,page+1))
                time.sleep(15)
    writeData(data)