自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 Python爬虫网络实践:去哪儿旅游数据爬取指南

我们将通过一个简单的示例来说明如何利用 Python 中的常用库进行网页抓取,从而获取旅游网站上的信息。主函数部分负责执行代码的主要逻辑,包括创建 CSV 文件、定义要爬取的城市和对应的 URL,以及循环遍历城市列表并调用 get_page 函数来爬取数据。通过以上步骤,我们实现了一个简单的网页抓取程序,用于抓取旅游网站上的景点信息,并将数据存储到 CSV 文件中以供后续分析和处理。

2024-04-10 17:39:57 568

原创 实现多文件合并和去重的MapReduce作业

通过上述MapReduce作业,我们成功地将多个文件合并成一个文件,并且去除了重复的行。我们有多个文本文件,每个文件包含一些文本行。我们的目标是将这些文件合并成一个文件,并去除重复的行,最终得到一个去重后的文本文件。

2024-04-10 17:16:51 333

原创 基于机器学习的信用卡办卡意愿模型预测项目

通过本项目,我们使用了机器学习模型预测了客户的信用卡办卡意愿,并通过Django实现了数据的可视化展示。这使得银行和金融机构能够更好地理解客户行为模式,并做出相应的业务决策。如有遇到问题可以找小编沟通交流哦。另外小编帮忙辅导大课作业,学生毕设等。不限于python,java,大数据,模型训练等。

2024-04-08 18:35:47 654

原创 基于Spark中随机森林模型的天气预测系统

使用Apache Spark和随机森林算法来构建一个天气预测系统。该系统将利用历史天气数据,通过机器学习模型预测未来的天气情况,特别是针对是否下雨的二元分类问题。

2024-04-06 15:21:17 764

原创 基于spark分析以springboot为后段vue为前端的大学生就业管理系统

本文将介绍如何通过爬虫采集数据,利用Spark进行数据分析处理,再结合Spring Boot后端服务和Vue前端技术,搭建一个功能全面的大学生就业管理系统。1.1 爬虫设计首先,我们需要设计一个爬虫程序来从猎聘网采集数据。爬虫程序应该具备以下功能:**数据提取:**精确提取职位描述、要求、薪资等关键信息。**异常处理:**能够处理网络请求失败、页面结构变化等异常情况。

2024-04-06 10:29:48 905

原创 利用Spark将Kafka数据流写入HDFS

在这篇博客中,我们介绍了如何使用Spark读取Kafka中的数据流,并将这些数据以CSV格式写入到HDFS中。

2024-04-04 22:13:40 1667 1

原创 使用 Flume 将 CSV 数据导入 Kafka:实现实时数据流

文介绍了如何使用 Apache Flume 将 CSV 格式的数据从本地文件系统导入到 Apache Kafka 中,以实现实时数据流处理。通过 Flume 的配置和操作步骤,我们可以轻松地将数据从 CSV 文件中读取并发送到 Kafka 主题中,为后续的实时数据分析和处理提供了便利。

2024-04-03 14:43:47 724

原创 使用 PySpark 读取csv数据进行分析,将结果数据导入招聘数据

我们从设置 PySpark 环境开始,然后读取 CSV 文件中的数据,进行数据分析,最后将分析后的数据导入到 MySQL 数据库中。通过利用 PySpark 的功能,组织可以获得有价值的见解,优化他们的招聘流程并做出数据驱动的决策。一旦我们分析了数据,可能希望将其存储在 MySQL 数据库中以进行进一步处理或报告。我们将定义一个函数将 DataFrame 写入 MySQL,导入数据之前需要创建mysql表。我们的招聘数据存储在一个 CSV 文件中。接下来,我们将对招聘数据进行一些基本的数据分析。

2024-04-02 18:37:17 558

原创 基于opencv的SVM算法的车牌识别系统设计与实现

牌识别技术是智能交通系统中的一项关键技术,它能够自动识别车辆的车牌号码。本文将详细介绍如何使用Python编程语言结合OpenCV库和SVM算法来实现车牌识别系统。

2024-03-31 10:56:31 750

原创 通过mapreduce程序统计旅游订单(wordcount升级版)

通过MapReduce程序对旅游产品预订数据的分析,我们能够洞察到消费者的偏好和行为模式。这些信息对于旅游企业来说是宝贵的,可以帮助他们更好地定位市场,设计符合消费者需求的产品,并最终提高客户满意度和市场份额。随着数据分析技术的不断进步,旅游行业将能够更加精准地满足消费者的需求,推动行业的持续发展。这个程序的目的是处理一个包含旅游产品预订信息的文本文件,并统计每个产品特性的出现次数。本文将结合一个实际的MapReduce程序案例,探讨如何通过分析旅游产品的预订数据来揭示消费者的偏好。

2024-03-31 10:01:31 857

原创 基于随机森林的信用卡满意度模型预测

首先从数据预处理开始,包括数据读取、清洗和特征工程,以确保数据质量和适用性。接着,通过可视化分析了贷款金额、贷款等级和贷款状态等关键特征,以便更好地理解数据。随后,使用随机森林分类器进行模型训练,并评估了模型在测试集上的性能,包括准确率、精确率、召回率和F1值等指标。最终,通过优化模型并展望未来的研究方向,为金融业务的发展提供了重要参考。

2024-03-31 09:03:32 812

原创 使用Flink实现Kafka到MySQL的数据流转换:一个基于Flink的实践指南

在现代数据处理架构中,Kafka和MySQL是两种非常流行的技术。定义Kafka数据源表:我们使用一个SQL语句创建了一个Kafka表re_stock_code_price_kafka,这个表代表了我们要从Kafka读取的数据结构和连接信息。定义MySQL目标表:然后,我们定义了一个MySQL表re_stock_code_price,指定了与MySQL的连接参数和表结构。数据转换和写入:最后,我们执行了一个插入操作,将从Kafka读取的数据转换并写入到MySQL中。

2024-03-30 17:44:36 1221

原创 使用Flink实现MySQL到Kafka的数据流转换

本篇博客将介绍如何使用Flink将数据从MySQL数据库实时传输到Kafka,这是一个常见的用例,适用于需要实时数据connector的场景。

2024-03-30 17:36:58 660

原创 基于Hive大数据分析springboot为后端以及vue为前端的的民宿系

本文介绍了如何利用Hive进行大数据分析,并结合Spring Boot和Vue构建了一个民宿管理系统。该民民宿管理系统包含用户和管理员登陆注册的功能,发布下架酒店信息,模糊搜索,酒店详情信息展示,收藏以及对收藏的酒店进行排序可视化,管理员发布,添加用户的功能。

2024-03-29 12:09:09 1702 1

原创 使用Apache Flink实现MySQL数据读取和写入的完整指南

在这里,我们计算了股票涨跌情况,并将结果写入到目标表中。在这个例子中,我们假设change_percent字段表示股票价格的变化百分比,rise字段为1表示股票上涨,为0表示股票下跌。同时需要提前创建好mysql表,一行source表,一张sink表。在这段代码中,我们首先创建了Flink的流式执行环境和StreamTableEnvironment。然后,我们定义了两个临时表,用于存储原始股票数据和清洗后的数据。接下来,我们执行数据清洗操作,并将结果写入目标表。最后,我们查询目标表并打印结果。

2024-03-28 19:28:13 695

原创 mapreduce 实现带有ex前缀的词频统计wordcount 大作业

我们将介绍如何使用MapReduce来实现带有一点变化的词频统计,特别是我们将关注以“ex”前缀开头的单词。通过结合代码和解释,让我们一起深入探讨“ExWordCount2”的奥秘。

2024-03-28 19:17:57 357

原创 基于SSM框架实现的快递配送平台

本文将介绍一款基于SSM框架的校园互助配送快递平台的设计与实现,旨在解决这些问题,提升校园快递配送的效率和用户体验。基于SSM框架实现的快递配送平台成功实现了预期目标,有效解决了校园快递配送中存在的问题。未来,我们将继续优化系统功能,提高用户体验,并探索与校园管理系统的对接,以实现更加智能化的校园快递服务。通过本项目的设计与实现,我们不仅提升了校园快递配送的效率,也为校园内的互助合作精神提供了新的实践平台。为了解决这些问题,我们提出了基于学生互助的快递配送模式,并开发了相应的校园互助配送快递平台。

2024-03-27 15:58:30 307

原创 学员健康管理系统 大作业

欢迎阅读本篇博客,我们将介绍如何优化一个基于 Python 和 MySQL 的用户管理系统。该系统旨在提供管理员和普通用户角色的功能,并包括用户管理、体检报告记录、医学知识库等功能。通过本指南,您将了解系统的重点功能以及如何结合代码进行解释。普通用户菜单提供了学员区队、学员信息、体检项目、体检报告、医学知识库等功能选项。用户可以根据需要选择相应的功能进行操作。系统将查询数据库以验证用户凭据的有效性,并根据结果跳转到相应的菜单页面。管理员菜单提供了用户管理功能,包括修改用户密码、删除用户、添加用户等。

2024-03-27 15:18:22 456

原创 基于spark的大数据分析预测地震受灾情况的系统设计

在本篇博客中,我们将介绍如何使用Apache Spark框架进行地震受灾情况的预测。我们将结合数据分析、特征工程、模型训练和评估等步骤,最终建立一个预测模型来预测地震造成的破坏程度,同时使用可视化大屏的方式展示数据的分布。我们使用了合并后的地震数据作为我们的数据集。

2024-03-25 17:00:45 1280

原创 豆瓣短评大数据分析:探索用户观影趋势与情感倾向

首先,我们编写Mapper函数和Reducer函数,然后对短评数据执行Map和Reduce操作,最终得到各个评分的评论数量统计并保存为CSV文件。我们首先利用Python的Pandas库加载豆瓣短评数据,并统计不同IP属地的评论数量。在本文中,我们将结合Python编程和大数据分析的技术,对豆瓣短评数据进行探索性分析,以洞察用户的地域分布、评分偏好以及对影片的情感倾向。最后,我们利用词云技术对豆瓣短评中的评论文本进行可视化。通过对评论文本的词频统计,生成词云图展示了用户在评论中提及频率较高的关键词。

2024-03-25 14:39:48 251

原创 基于机器学习预测员工流失的情况

通过逻辑回归和随机森林模型,我们成功地预测了员工的流失情况。通过分析模型的准确率和分类报告,我们可以看到随机森林模型相对于逻辑回归模型有更好的预测效果,因为它能够更好地处理复杂的数据关系。通过分析员工流失的数据,并使用机器学习模型来预测员工是否会流失,我们可以采取预防性措施,尽量减少员工的流失。现在,我们将数据集拆分为训练集和测试集,并构建逻辑回归模型和随机森林模型来预测员工的流失情况。接下来,我们对数据进行预处理,包括去除无关的特征、对分类变量进行编码以及特征缩放。

2024-03-24 18:16:05 350 1

原创 基于Hive的招聘网站的大数据分析系统

基于Hive的招聘网站的大数据分析系统,预处理包括数据清洗、去重、缺失值处理、数据格式转换等环节,以确保数据的质量和一致性。在这一阶段,还可以利用自然语言处理技术对文本数据进行分词、词性标注等操作,为后续的分析提供更多维度的信息。通过对招聘数据的分析,我们可以发现人才市场的热点行业、热门职位、薪资水平等信息,为企业招聘决策提供参考。在可视化界面上,我们可以展示招聘数据的各种统计图表、热点地图、词云等,帮助用户更直观地理解数据背后的信息。

2024-03-24 08:21:16 670 1

原创 Python爬虫实战:从猎聘网获取职位信息并存入数据库

通过使用python从猎聘网获取职位信息并存入mysql数据库中。接下来,我们将解析得到的职位信息存入MySQL数据库中。获取到的数据通常是JSON格式的,我们需要解析JSON数据,提取出我们需要的职位信息,例如职位名称、公司名称、工作地点、薪资待遇等。这个函数用于读取JavaScript代码,并执行JavaScript来生成一个参数(ckId),用于后续的HTTP请求。这个函数用于解析HTTP响应,提取其中的职位信息,并调用sync_data2db()函数将数据存入数据库中。

2024-03-23 15:41:46 532

原创 基于Hive的天气情况大数据分析系统(通过hive进行大数据分析将分析的数据通过sqoop导入到mysql,通过Django基于mysql的数据做可视化)

基于Hive的天气情况大数据分析系统,通过hive进行大数据分析将分析的数据通过sqoop导入到mysql,通过Django基于mysql的数据做可视化

2024-03-23 14:13:40 930 1

原创 用Python一键爬取艺龙酒店各个城市数据存入mysql

在这篇文章中,我将分享如何利用Python轻松爬取易龙API中的酒店数据。易龙是一家知名的中国酒店预订平台,他们的API提供了丰富的酒店信息,包括价格、评论等。我们将使用Python以及Requests库进行HTTP请求,BeautifulSoup库用于解析HTML。在本文中,我们学习了如何使用Python从易龙API中抓取酒店数据。我们创建了一个抓取器类,从API获取数据并提取相关信息。现在,让我们深入代码。要运行脚本,我们需要为每个城市创建一个 YiLongList 实例并调用 main() 方法。

2024-03-23 13:44:44 406 1

原创 Spark 优化方案

本文介绍了十种提高 Spark 性能的优化方案,包括数据分区、内存管理、数据序列化、数据压缩、缓存数据、并行度、使用高效的算法和操作、避免数据倾斜、使用集群管理器以及监控和调试。通过使用这些优化方案,可以提高 Spark 在处理大数据集时的性能和效率。

2023-04-06 21:37:13 938

原创 Flink CDC 最佳实践(以 MySQL 为例)

可以看到,当有数据变更时,Flink CDC Job 会输出变更的表名、记录的主键以及变更的数据。例如,在这个示例中,有一行记录的年龄字段从25变成了27。在 MySQL 中,首先需要创建需要进行 CDC 的表和 CDC 表。CDC 表是一个系统表,它存储了需要捕获的更改数据。接下来,需要编写一个 Flink CDC 应用程序,以将 MySQL 表更改推送到 Kafka 主题中。首先,需要在本地或云端创建 MySQL 数据库,并添加一个具有读写权限的用户。为需要进行同步的 MySQL 表的名称。

2023-04-06 20:50:43 5032

原创 Spark常见错误剖析与应对策略

工作中spark 的常见问题以及发生的原因和应对策略

2022-10-23 22:12:12 7062

原创 大数据之spark on k8s

大数据之spark on k8sspark on k8s架构解析1.k8s的优点k8s是一个开源的容器集群管理系统,可以实现容器集群的自动化部署、自动扩缩容、维护等功能。1、故障迁移2、资源调度3、资源隔离4、负载均衡5、跨平台部署2.k8s集群架构[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-itzEKPaJ-1639903124654)(F:\桌面\image.png)]Master Nodek8s 集群控制节点,对集群进行调度管理,接受集群外用

2021-12-19 16:43:51 7347 1

原创 大数据之hadoop3入门到精通

hadoop3.x搭建学习Hadoop概述什么是hadoop?1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构。2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈。Hadoop四大特点1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。3)高效性:在MapRedu

2021-05-21 17:08:42 639 5

原创 正则表达式

正则表达式正则表达式在线工具https://regex101.com/点—匹配所有字符.表示要匹配除了换行符以外的任何单个字符import recontent = """苹果是绿色的 橙子是橙色的 香蕉是黄色的 乌鸦是黑色的"""p = re.compile(r".色")if __name__=='__main__': for line in p.findall(content): print(line)[外链图片转存失败,源站可能有防

2021-05-13 14:08:41 186

原创 大数据实战项目之电商数仓(一)

大数据实战项目之电商数仓(一)项目介绍数据仓库概念​ 数据仓库是为企业所有决策制定过程,提供所有系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业改进业务流程,控制成本,提高产品质量等。数据仓库,并不是数据的最终目的地,而是为数据最终目的地做好准备。这些准备包括对数据的清洗,转义,分类,重组,合并,拆分,统计等。项目需求分析一、项目需求1、数据采集平台搭建2、实现用户行为数据仓库的分层搭建3、实现业务数据的分成搭建4、针对数据仓库中的数据进行留存,转化率,GMV(成交总额

2021-05-10 16:38:38 1270

原创 java基本语法(史上最全)

java基本语法(史上最全)(一)关键字和保留字关键字的定义和特点定义:被java语言赋予了特殊含义,用作专门用途的字符串。特点:关键字中所有字母都为小写。关键字不能用作变量名,方法名,类名,包名和参数。2.保留字定义:现在java尚未使用,但以后版本可能会作为关键字使用。自己使用时应避免使用。(二)标识符标识符凡是可以自己命名的地方都叫标识符。例如:包名,类名,方法等。定义合法标识符规则1.有26个英文字母大小写,0-9,_或$组成。2.不能以数字开头。3.不可以使用关键字和

2021-05-10 16:22:56 39292 6

基于SSM框架实现的快递配送平台

基于SSM框架实现的快递配送平台 随着电子商务的蓬勃发展,校园内的网购行为日益频繁,快递配送服务成为了校园生活中不可或缺的一部分。然而,校园快递配送面临着诸多挑战,如快递点分布不均、取件不便、配送效率低下等问题。本文将介绍一款基于SSM框架的校园互助配送快递平台的设计与实现,旨在解决这些问题,提升校园快递配送的效率和用户体验。 问题背景 校园快递服务的不足主要表现在以下几个方面: 快递点分布不均,导致学生取件不便。 取件环节存在问题,如排队时间长、快件易丢失或损坏。 快递公司校园配送效率低,导致快递积压。 为了解决这些问题,我们提出了基于学生互助的快递配送模式,并开发了相应的校园互助配送快递平台。 系统设计 1. 系统需求分析 通过对校园快递现状的深入分析,我们确定了系统的主要需求: 学生互助配送模式,提高配送效率。 用户友好的界面设计,简化取件流程。 高效的后台管理,确保数据的准确性和安全性。 2. 系统架构 系统采用SSM框架(Spring + Spring MVC + MyBatis)进行开发,分为三个主要模块: 管理员模块:负责用户管理、订单管理、公告

2024-03-27

01_基于模型的协同过滤推荐.md

01_基于模型的协同过滤推荐.md

2022-09-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除