自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 数据分析、数据挖掘项目合集

基于ETL工具,对数据库Sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统,即实现定期从源数据仓库Sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到目标仓库中。通过爬虫技术爬取网易云音乐歌单信息,将爬取到的信息进行数据预处理、数据清洗,然后爬取到的信息保存到MySQL数据库中,最后采用统计汇总和统计的方法对数据进行总结,将数据可视化出来。首先对数据集进行预处理,预处理后的数据进行探索性分析,观察各变量的分布情况,各变量之间是否存在关系,如线性关系、相关性等。

2025-02-28 18:23:42 735

原创 西饼屋订单关联分析

首先是通过对订单数据的统计,我们发现饮品类商品在销售中占据主导地位,尤其是纯牛奶和豆浆。然后利用Apriori算法,我挖掘了商品间的关联规则。最后对结果进行可视化,包括条形图、散点图、网络图和热力图,来展示分析结果,这些图表直观地呈现了商品销售的统计数据和关联规则的重要指标。

2025-02-28 16:43:23 718 1

原创 歌曲分类和流行度预测

本项目为了充分了解歌曲数据集,主要从歌曲分类和歌曲流行度预测入手。其中歌曲分类依次用了决策树分类器、随机森林分类器、xgboost分类器进行分类,从结果来看,决策树分类器的分类效果最不好,然后xgboost分类器的分类效果最好,准确率可以达到92%。歌曲流行度预测选用随机森林回归器和梯度提升回归器对歌曲流行度进行预测,使用sklearn中的Grid Search方法进行最佳超参数组合的搜索,预测效果较好,最低平均绝对误差为16.45。在该预测模型中音轨时间、速度和音量是歌曲流行度预测中贡献率的前三。

2025-02-28 15:10:32 1099

原创 爬取网易云歌单信息并分析

从网易云网站爬取歌单信息,然后进行数据清洗,并对清洗后的数据进行数据分析

2025-02-28 13:08:59 2112

原创 对泰坦尼克号沉没事件幸存者数据分析和预测

Titanic.csv数据中包含了891个样本,记录了泰坦尼克号遇难时的891个乘客的基本信息,其中包括以下信息:PassengerId: 乘客编号Survived: 生还情况,生还为1,死亡为0Pclass: 舱位,分为1,2,3等,1为最高的,3为最低等Name: 姓名Sex: 性别Age: 年龄SibSp: 同船的兄弟姐妹或配偶Parch: 同船的父母或子女Ticket: 船票信息Fare: 乘客票价Cabin: 客舱编号。

2025-02-28 12:06:22 2607 5

原创 多元统计各类分析(二)

因子分析、对应分析、典型相关分析

2025-02-28 11:42:09 833

原创 多元统计各类分析(一)

判别分析、聚类分析、主成分分析

2025-02-28 11:17:00 849

原创 广义线性模型下的数据分析(R语言)

利用R实现线性回归分析、逻辑回归、列联分析及方差分析,并能对分析结果进行解读。

2025-02-28 10:57:41 1272

原创 多元数据直观表示(R语言)

以前的工作经历大多集中在0-120个月,即1-10年,随着工作经历的增加,会出现少数再找工作时,其初始工资很高,但是总体工作经历对其再工作时的初始工资没有什么影响。从均值来看,等级1、2的受教育的年限均值相同,等级3最高,但等级1、2的薪资均值相差不大,等级3的薪资却比等级1、2高得多,从某种程度上可以表明受教育年限越高,其薪资也越高。的多一点儿,表明工作时间会对薪资有一定的影响,但薪资并不是只由工作时间直接决定的,还存在其他因素对其有影响。:以前工作经历,指在其他单位累计工作时间(单位:月);

2025-02-27 23:03:32 1042

原创 出租车交通预测

使用出租车数据进行交通预测实验

2025-02-27 18:40:48 433

原创 计算出行OD表和绘制城市热点区域

1. 计算出租车出行OD表2. 绘制城市热点区域

2025-02-27 18:32:26 1494

原创 出租车轨迹数据预处理

这里认为某辆出租车在同一日期同一时间同一海拔高度只能有一条数据,如果有多条数据记录,则为重复数据,因此每组重复数据记录,只保留其中一条数据记录,其余的应该删除。由于本文的实验数据量比较大,所有用常规的方式进行数据处理,如数据清洗等,会比较消耗资源和时间,因此一般可以建立适当的索引、使用批处理的方法,可以加快处理的速度。与上一条数据记录比较时都没变化时,则上一条记录为异常数据,统计共有多少条异常数据。对数据表中的数据进行缺失值处理,由于样本数据量比较大,缺失值数据比较少,因此此处就直接将缺失值数据删除。

2024-07-09 17:18:28 1414

原创 数据导入与准备

实验目的:导入交通大数据与百度可视化准备二、实验内容:1.将提供的出租车GPS数据导入Mysql数据库以下为出租车GPS数据字段说明。本部分实验的内容包括:1)在mysql数据库中新建出租车数据表,注意:数据表的索引的建立。2)编写python程序,读取txt文件,并将与编号相对应的GPS数据写入数据表中。2. 申请百度地图APK,并且在实验报告中附上所申请百度地图apk的截图。百度地图开放平台网站:https://lbsyun.baidu.com。

2024-07-09 16:26:04 543

原创 Spark SQL编程初级实践

假设当前目录为/usr/local/spark/mycode/rddtodf,在当前目录下新建一个目录mkdir -p src/main/python,然后在目录/usr/local/spark/mycode/rddtodf/src/main/python下新建一个rddtodf.py,复制下面代码;(下列两种方式任选其一)首先在目录/usr/local/spark/mycode/sparksql下,用命令“gedit employee.json”创建文件,并把数据复制进去。

2024-04-12 16:37:13 2284 3

原创 RDD编程中级实践,RDD算子简单计算

基于Spark、RDD计算各个地区的平均薪资、岗位数,最高薪资

2024-04-07 15:52:55 874

原创 RDD编程初级实践

RDD的初级编程

2024-04-07 15:30:41 2840

原创 sakila数据集中最受欢迎的电影题材和明星

在构建DVD数据仓库的基础上,再分析sakila数据集,找出最受欢迎的电影题材、销售数据,最受欢迎的电影明星

2023-12-18 16:59:24 320 1

原创 Sakila构建DVD租赁商店数据仓库(etl)

利用ETL技术对数据库sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统。

2023-12-04 18:02:41 1669

原创 Windows10安装hadoop3.1.3详细教程

在Windows中安装hadoop及配置

2023-11-27 21:53:49 4909 9

原创 解决PowerDesigner窗口界面缩放大小问题

解决PowerDesigner(汉化后)界面大小问题

2023-10-30 16:36:19 2971 5

原创 Kettle 无人售货机项目实战

解决无人售货机收益无法达到最大化问题,需要分析客户每天的订单列表、订单详情和无人售货机日销售金额等数据,获取有关热销和滞销商品信息,以及无人售货机的收入和利润信息。

2023-10-30 15:36:16 8828 19

原创 Windows10下安装mysql-8.0.20-winx64

Windows10下安装mysql-8.0.20-winx64及环境变量的配置

2023-09-05 21:33:15 374 1

歌曲分类和流行度预测的数据集和源代码

本项目为了充分了解歌曲数据集,主要从歌曲分类和歌曲流行度预测入手。其中歌曲分类依次用了决策树分类器、随机森林分类器、xgboost分类器进行分类,从结果来看,决策树分类器的分类效果最不好,然后xgboost分类器的分类效果最好,准确率可以达到92%。

2025-02-28

Sakila构建DVD租赁商店数据仓库

sakila数据库和sakila_dwh数据库

2023-12-04

Kettle 无人售货机项目实战数据包

Kettle 无人售货机项目实战数据包

2023-10-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除