计算机毕业设计PySpark+Scrapy农产品推荐系统农产品爬虫农产品商城农产品大数据农产品数据分析可视化 PySpark Hadoop

B站计算机毕业设计大学

于 2024-09-16 00:00:00 发布

阅读量1.1k

点赞数 11

分类专栏：大数据毕业设计文章标签： hadoop 大数据课程设计机器学习深度学习推荐算法爬虫

本文链接：https://blog.csdn.net/spark2022/article/details/142285626

版权

大数据毕业设计专栏收录该内容

576 篇文章 43 订阅

订阅专栏

基于Spark的农产品个性推荐系统

相关技术介绍:
1. Python

Python是一种高级编程语言，具有简洁、易读、易学的特点，被广泛应用于Web开发、数据分析、人工智能等领域。

在此系统中，我们使用Python进行后端开发，利用其强大的语法特性和丰富的第三方库，实现了各个模块（如商品、用户、购物车等）的业务逻辑。

2. PySpark

PySpark是Apache Spark的Python API，它支持Spark提供的所有功能，包括分布式数据处理、机器学习、图形处理等，具有高效、快速的数据处理能力。

在此系统中，我们使用PySpark进行数据处理和分析，例如利用Spark SQL查询数据库中的数据，或通过Spark Streaming实时处理用户行为数据。

3. Hadoop

Hadoop是一种开源的分布式计算框架，它支持处理大规模数据集，具有高可靠性和可扩展性。

在此系统中，我们使用Hadoop进行数据存储和分布式计算，例如将大量的用户浏览行为数据存储到HDFS文件系统中，并通过MapReduce框架进行并行计算。

4. Django

Django是一种用于Web应用程序开发的高级Python Web框架，它具有ORM、模板渲染、路由分发等一系列功能，可以快速构建高质量的Web应用程序。

在此系统中，我们采用Django作为后端开发框架，通过其提供的功能，轻松实现了各个业务模块的开发和管理，例如商品、用户、购物车等。

5. Scrapy

Scrapy是一种Python编写的爬虫工具，它支持异步网络请求和数据解析，可以从网站上抓取大量的结构化数据。

在此系统中，我们使用Scrapy进行数据采集，例如从多个电商网站抓取商品信息，并存储到数据库中，以供系统进行商品推荐和展示。

6. Vue

Vue.js是一种前端JavaScript框架，支持组件化开发和模板渲染，使得前端开发更加易用和高效。

在此系统中，我们采用Vue.js作为前端开发框架，通过其提供的功能，实现了整个系统的前端交互和视觉设计，例如商品展示、购物车管理等。

7. Element Plus

Element Plus是一种基于Vue.js的组件库，它包含了一系列美观、易用的UI组件和样式，可以简化前端开发过程。

在此系统中，我们使用Element Plus作为前端UI框架，利用其提供的组件，快速构建了购物车界面和登陆界面，并提升了系统的用户体验。

系统的实现可以分为以下七个模块：
1. 数据抓取模块

这个模块的主要任务是从“惠农网”采集数据，并将其存储至数据库及Hadoop分布式文件系统中。我们采用了Scrapy作为爬虫框架，通过编写Python代码实现自动化抓取数据。由于许多网站保护自己而对爬虫采取了反爬手段，因此我们必须采取一些措施来绕过这些限制，例如设置代理、更换User-Agent等。抓取到的数据包括商品信息（如名称、图片、价格、类别等）。

2. 数据预处理模块

这个模块的主要任务是对从网络上抓取的原始数据进行清洗、去重、规范化和归一化，以方便后续处理。首先，我们需要去掉HTML标签、特殊字符等无用信息，并将数据统一编码为UTF-8格式。然后，我们可以通过一些方法（如Levenshtein距离、余弦相似度等）补全缺失或错误的信息，并进行数据去重和数据匹配等操作，最后将数据转换成适合接下来的算法使用的格式（如行列表示或稀疏矩阵表示）。

3. 推荐算法模块

这个模块的主要任务是根据用户历史浏览行为和购买记录，计算不同用户之间之间的相似度，并基于该相似度来推荐相似的农产品给用户。我们使用Apache Spark的MLlib库实现了协同过滤算法，通过训练模型，生成一个可以对用户进行准确预测的模型。具体来说，我们使用了Spark中的Alternating Least Squares (ALS)算法，用该算法可实现基于用户推荐与基于物品推荐，算法首先将用户id、商品id以及浏览量评分作为输入，然后输出商品相似度矩阵，矩阵中的每个元素代表两个商品之间的相似度。这样可以最大程度地发掘用户的潜在需求，提高农产品的销售量和用户粘性。

4. 推荐模块

这个模块是整个推荐系统的核心，主要负责将推荐算法的结果展示给用户。当用户浏览商品时，系统会根据用户的历史浏览行为和购买记录，向用户推荐相关的农产品。推荐模块采用Vue.js和Element UI等技术框架构建前端UI界面，通过Ajax技术从后台获取推荐数据。

5. 用户管理模块

这个模块主要是提供用户注册、登录、个人信息管理等服务。我们使用Django框架实现了用户管理模块，并将用户信息存储在数据库中。此外，为了保证用户信息的安全性，我们还需要对输入数据进行有效性验证和校验。用户管理模块的目标是提供方便的用户管理服务，增强用户的黏性和满意度。

6. 商品管理模块

这个模块主要是提供管理员操作的义务，用于管理农产品的相关信息，包括基本信息、价格、分类、数量等。我们使用Django框架实现商品管理模块，并将商品信息存储在数据库中。此外，对于上架的农产品信息，我们可以在后台进行审核和下架处理，确保商品的质量和安全性。商品管理模块的目标是提供高效、精准的商品管理服务，增加商品的销售量和用户评价。

7. 购物车和订单模块

这个模块主要涉及到购物车和订单管理，包括加入购物车、付款等全流程。我们使用Django框架实现购物车和订单模块，并将购物车信息和订单信息存储在数据库中。购物车和订单模块的目标是提供完整的购物体验和售后服务，增强用户的购买快感和满意度。

综上所述，基于Spark的农产品个性化推荐系统涉及到多个方面，需要结合多种技术和框架进行开发和实现。每个模块都仔细设计和实现，以确保系统的高效性、准确性、安全性和易用性。

技术及功能关键词:
python pyspark hadoop django scrapy vue element-plus 协同过滤算法
通过scrapy爬虫框架抓取“惠农网”网站上的农产品数据
前台用户通过登陆注册后进入系统
用户可在个人中心修改基本信息，其包括收货人姓名、收货地址及联系电话，也可以修改密码
管理员可在后台管理各类农产品数据
在商品大厅模块中，在模块页面的左侧，用户可以通过农产品关键词或农产品分类等条件筛选符合要求的农产品，也可以通过默认、价格、随便看看等排序条件对产品进行排序；在模块页面的右侧，系统会通过基于用户的协同过滤算法推荐用户5个农产品
当用户浏览某个农产品的详情页面时，系统会展示农产品的标题、产品图片、价格、商家、类别、地区、产品参数以及产品详情介绍等基本信息，同时在页面的右侧，系统会通过基于物品的协同过滤算法推荐用户5个相关的农产品
当用户浏览某个农产品的详情页面时，用户可将其加入购物车，在购物车页面可以将所有农产品一并结算购买，当填写完收货人姓名、收货地址及联系电话等信息后，加入订单信息，随后可在我的订单模块查看历史所有的订单

目录结构(只关注标注了中文的):
├── README.md
├── auth 用户登陆注册模块
│   ├── __init__.py
│   ├── admin.py
│   ├── apps.py
│   ├── migrations
│   │   ├── 0001_initial.py
│   │   └── __init__.py
│   ├── models.py
│   ├── tests.py
│   ├── urls.py
│   └── views.py 登陆注册/修改密码/修改个人信息的代码！
├── bs-frontend-template
│   ├── LICENSE
│   ├── encrypt.js
│   ├── index.html
│   ├── jest.config.js
│   ├── mock
│   │   ├── data
│   │   ├── index.ts
│   │   ├── mockProdServer.ts
│   │   └── response.ts
│   ├── package-lock.json
│   ├── package.json
│   ├── public
│   ├── src
│   │   ├── App.vue
│   │   ├── api
│   │   ├── assets
│   │   ├── components
│   │   ├── config
│   │   ├── directive
│   │   ├── icons
│   │   ├── layout
│   │   ├── main.ts
│   │   ├── mixin
│   │   ├── permission.ts
│   │   ├── router
│   │   ├── store
│   │   ├── type
│   │   ├── utils
│   │   └── views 前端源代码，前台所有页面的代码都在这！！！
│   ├── tailwind.config.js
│   ├── test
│   │   ├── components
│   │   └── utils
│   ├── tsconfig.json
│   └── vite.config.ts
├── db.sqlite3
├── dist
│   ├── assets
│   │   ├── 401.769d53ed.js
│   │   ├── 401.a61ddb94.gif
│   │   ├── 401.c2a2c7c5.css
│   │   ├── 404.538aa4d7.png
│   │   ├── 404.5ca2d44b.js
│   │   ├── 404.7b2a8f99.css
│   │   ├── 404_cloud.98e7ac66.png
│   │   ├── Login.88979abb.js
│   │   ├── Login.99cfb354.css
│   │   ├── Register.43a03aeb.css
│   │   ├── Register.4b671ac5.js
│   │   ├── action.04923800.js
│   │   ├── blank.72499d02.js
│   │   ├── echarts.7b83cee2.js
│   │   ├── element-icons.9c88a535.woff
│   │   ├── element-icons.de5eb258.ttf
│   │   ├── element-plus.6676f87e.js
│   │   ├── formExtend.64ea3fc7.js
│   │   ├── format.d52b9cd4.js
│   │   ├── icon.51fd296d.png
│   │   ├── index.033ad819.js
│   │   ├── index.25654c29.css
│   │   ├── index.3113e28f.js
│   │   ├── index.421e0f7d.css
│   │   ├── index.5469c60f.js
│   │   ├── index.84fbaef0.css
│   │   ├── index.8e0381e8.css
│   │   ├── index.af418062.js
│   │   ├── index.b80ed4b4.js
│   │   ├── index.c87f29a1.js
│   │   ├── index.db1c9c90.js
│   │   ├── index.e590e563.js
│   │   ├── index.f6141f0a.css
│   │   ├── index.fe77f519.css
│   │   ├── pinyin.889e0d93.js
│   │   └── redirect.136154af.js
│   └── index.html
├── index
│   ├── __init__.py
│   ├── admin.py
│   ├── apps.py
│   ├── migrations
│   │   └── __init__.py
│   ├── models.py
│   ├── tests.py
│   ├── urls.py
│   ├── utils.py
│   └── views.py
├── manage.py
├── middlewares
│   └── __init__.py
├── produce 农产品数据后端最重要的模块！！！
│   ├── __init__.py
│   ├── admin.py 后台显示数据的配置
│   ├── apps.py 协同过滤算法代码！！！
│   ├── migrations
│   │   └── __init__.py
│   ├── models.py 数据库的各个表模型
│   ├── tests.py
│   ├── urls.py
│   └── views.py 农产品相关所有重要的后端代码！！！！！
├── produce_recommand
│   ├── __init__.py
│   ├── asgi.py
│   ├── settings.py 后端配置文件
│   ├── urls.py 路由配置文件
│   └── wsgi.py
├── requirements.txt
├── scrapy.cfg
├── spider
│   ├── __init__.py
│   ├── items.py
│   ├── middlewares.py
│   ├── pipelines.py 爬虫数据入库逻辑
│   ├── settings.py
│   └── spiders
│    ├── __init__.py
│    └── hnw.py 爬虫代码！！！
└── 项目介绍.txt