deepseek毕业设计：豆瓣图书数据分析可视化系统 Flask框架 python语言 requests爬虫 MySQL数据库（建议收藏）✅

最新推荐文章于 2025-04-24 19:54:05 发布

q_3375686806

最新推荐文章于 2025-04-24 19:54:05 发布

阅读量994

点赞数 19

分类专栏： biyesheji0001 毕业设计 biyesheji0005 文章标签： python 数据库课程设计大数据图书爬虫毕业设计

本文链接：https://blog.csdn.net/q_3375686806/article/details/146303393

版权

毕业设计同时被 3 个专栏收录

344 篇文章

订阅专栏

biyesheji0001

281 篇文章

订阅专栏

biyesheji0005

124 篇文章

订阅专栏

博主介绍：✌全网粉丝10W+,前互联网大厂软件研发、集结硕博英豪成立工作室。专注于计算机相关专业项目实战6年之久，选择我们就是选择放心、选择安心毕业✌
> 🍅想要获取完整文章或者源码，或者代做，拉到文章底部即可与我联系了。🍅

点击查看作者主页，了解更多项目！

🍅感兴趣的可以先收藏起来，点赞、关注不迷路，大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助同学们顺利毕业。🍅

1、毕业设计：2025年计算机专业毕业设计选题汇总（建议收藏）✅

2、大数据毕业设计：2025年选题大全深度学习 python语言 JAVA语言 hadoop和spark（建议收藏）✅

1、项目介绍

技术栈：
python语言、Flask框架、MySQL数据库、requests爬虫技术、豆瓣图书、Echarts可视化、HTML

2、项目界面

（1）系统首页—数据概况
在这里插入图片描述

（2）图书信息列表
在这里插入图片描述

（3）图书年份数据分析
在这里插入图片描述

（4）年份评分散点图
在这里插入图片描述

（5）作者出版数量TOP10
在这里插入图片描述

（6）作者词云图分析
在这里插入图片描述

（7）注册登录

在这里插入图片描述

（8）后台数据管理
在这里插入图片描述
（9）数据采集

在这里插入图片描述

3、项目说明

1. 系统首页——数据概况

系统首页是用户进入系统后的第一个界面，主要用于展示整个系统的数据概况。这里可能会显示图书的总数量、最新采集的图书信息、热门图书推荐等内容。通过简洁的图表和数据展示，用户可以快速了解系统的整体数据情况。

2. 图书信息列表

该模块展示了系统中存储的所有图书信息，包括书名、作者、出版年份、评分等。用户可以通过搜索、筛选等功能快速找到自己感兴趣的图书。列表形式的展示方便用户浏览和比较不同图书的信息。

3. 图书年份数据分析

此模块通过图表（如柱状图或折线图）展示不同年份图书的出版数量或评分变化趋势。用户可以直观地看到图书出版的高峰期以及不同年份图书的评分差异，从而了解图书市场的动态变化。

4. 年份评分散点图

该模块通过散点图的形式，将图书的出版年份与评分进行关联展示。每个点代表一本图书，横轴为出版年份，纵轴为评分。用户可以通过这种可视化方式，快速发现不同年份图书评分的分布规律，例如某些年份的图书是否普遍评分较高。

5. 作者出版数量TOP10

该模块展示了系统中出版图书数量最多的前10位作者。通过柱状图或饼图的形式，用户可以清楚地看到哪些作者在图书市场中占据主导地位，以及他们的作品数量对比。

6. 作者词云图分析

词云图是一种直观展示文本数据中关键词频率的可视化方式。在这个模块中，通过词云图展示系统中出现频率最高的作者名字。字体越大，表示该作者的作品数量越多或影响力越大。这种可视化方式可以让用户快速了解系统中最受欢迎或最活跃的作者群体。

7. 注册登录

这是系统的用户管理模块，提供用户注册和登录功能。用户可以通过注册账号，保存自己的浏览记录、收藏图书等个性化信息。登录功能则确保用户信息安全，同时提供更个性化的体验。

8. 后台数据管理

该模块是系统管理员使用的后台管理界面，用于管理图书数据、用户数据、采集任务等。管理员可以在这里添加、删除或修改图书信息，查看用户行为数据，以及配置数据采集任务的运行参数。

9. 数据采集

数据采集模块是系统的核心功能之一，通过爬虫技术从豆瓣图书等数据源获取图书信息。用户可以通过设置采集任务的参数（如采集频率、采集范围等），自动获取最新的图书数据，并存储到系统数据库中。该模块确保系统数据的实时性和完整性。

4、核心代码



# 创建一个列表来保存所有书籍信息
books = []

for page in range(0, 30):
    url = base_url.format(page * 20)
    print(f"正在爬取第 {page + 1}页: {url}")
    try:
        response = requests.get(url, headers=headers)
        response.raise_for_status()  # 检查请求是否成功
        content = response.text
        tree = etree.HTML(content)
        detail_links = tree.xpath('//div[@class="info"]/h2/a/@href')  # 详情链接列表

        for link in detail_links:
            try:
                response = requests.get(link, headers=headers)
                response.raise_for_status()
                content = response.text
                tree = etree.HTML(content)

                # 获取书籍名称
                title = tree.xpath('//span[@property="v:itemreviewed"]/text()')
                title = title[0] if title else '未知'

                # 获取图片
                img_src = tree.xpath('//a[@class="nbg"]/img/@src')
                img_src = img_src[0] if img_src else '未知'

                # 获取评分
                _rate = tree.xpath('//strong/text()')
                rate = [item.strip() for item in _rate if item.strip()]
                rate = rate[0] if rate else '暂无评分'

                _info = tree.xpath('//div[@id="info"]//text()')
                info = [item.strip() for item in _info if item.strip()]

                # 提取信息
                author = re.search(r':\s*([^\s,]+)', ' '.join(info))
                publisher = re.search(r'出版社:\s*([^\s,]+)', ' '.join(info))
                publish_year = re.search(r'出版年:\s*([^\s,]+)', ' '.join(info))
                price = re.search(r'定价:\s*([^\s,]+)', ' '.join(info))
                page_number = re.search(r'页数:\s*([^\s,]+)', ' '.join(info))
                isbn = re.search(r'ISBN:\s*([^\s,]+)', ' '.join(info))

                print(title,rate,author,publisher,publish_year,price,page_number,isbn)

                books.append([
                    title,
                    img_src,
                    rate,
                    author.group(1) if author else '未知',
                    publisher.group(1) if publisher else '未知',
                    publish_year.group(1) if publish_year else '未知',
                    price.group(1) if price else '未知',
                    page_number.group(1) if page_number else '未知',
                    isbn.group(1) if isbn else '未知',
                    link,  # 修改为单个链接
                ])

                # print(books)

                time.sleep(1)  # 请求之间的延迟
            except Exception as e:
                print(f"Error fetching book details from {link}: {e}")

    except Exception as e:
        print(f"Error fetching page {page + 1}: {e}")

# 保存数据到 CSV 文件
with open('douban_books.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    # 写入表头
    writer.writerow(['书名', '图片链接', '评分', '作者', '出版社', '出版年', '定价', '页数', 'ISBN', '详情链接'])
    # 写入书籍信息
    writer.writerows(books)

print("数据已保存到 douban_books.csv")