- 博客(22)
- 收藏
- 关注
原创 数据分析、数据挖掘项目合集
基于ETL工具,对数据库Sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统,即实现定期从源数据仓库Sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到目标仓库中。通过爬虫技术爬取网易云音乐歌单信息,将爬取到的信息进行数据预处理、数据清洗,然后爬取到的信息保存到MySQL数据库中,最后采用统计汇总和统计的方法对数据进行总结,将数据可视化出来。首先对数据集进行预处理,预处理后的数据进行探索性分析,观察各变量的分布情况,各变量之间是否存在关系,如线性关系、相关性等。
2025-02-28 18:23:42
735
原创 西饼屋订单关联分析
首先是通过对订单数据的统计,我们发现饮品类商品在销售中占据主导地位,尤其是纯牛奶和豆浆。然后利用Apriori算法,我挖掘了商品间的关联规则。最后对结果进行可视化,包括条形图、散点图、网络图和热力图,来展示分析结果,这些图表直观地呈现了商品销售的统计数据和关联规则的重要指标。
2025-02-28 16:43:23
718
1
原创 歌曲分类和流行度预测
本项目为了充分了解歌曲数据集,主要从歌曲分类和歌曲流行度预测入手。其中歌曲分类依次用了决策树分类器、随机森林分类器、xgboost分类器进行分类,从结果来看,决策树分类器的分类效果最不好,然后xgboost分类器的分类效果最好,准确率可以达到92%。歌曲流行度预测选用随机森林回归器和梯度提升回归器对歌曲流行度进行预测,使用sklearn中的Grid Search方法进行最佳超参数组合的搜索,预测效果较好,最低平均绝对误差为16.45。在该预测模型中音轨时间、速度和音量是歌曲流行度预测中贡献率的前三。
2025-02-28 15:10:32
1099
原创 对泰坦尼克号沉没事件幸存者数据分析和预测
Titanic.csv数据中包含了891个样本,记录了泰坦尼克号遇难时的891个乘客的基本信息,其中包括以下信息:PassengerId: 乘客编号Survived: 生还情况,生还为1,死亡为0Pclass: 舱位,分为1,2,3等,1为最高的,3为最低等Name: 姓名Sex: 性别Age: 年龄SibSp: 同船的兄弟姐妹或配偶Parch: 同船的父母或子女Ticket: 船票信息Fare: 乘客票价Cabin: 客舱编号。
2025-02-28 12:06:22
2607
5
原创 多元数据直观表示(R语言)
以前的工作经历大多集中在0-120个月,即1-10年,随着工作经历的增加,会出现少数再找工作时,其初始工资很高,但是总体工作经历对其再工作时的初始工资没有什么影响。从均值来看,等级1、2的受教育的年限均值相同,等级3最高,但等级1、2的薪资均值相差不大,等级3的薪资却比等级1、2高得多,从某种程度上可以表明受教育年限越高,其薪资也越高。的多一点儿,表明工作时间会对薪资有一定的影响,但薪资并不是只由工作时间直接决定的,还存在其他因素对其有影响。:以前工作经历,指在其他单位累计工作时间(单位:月);
2025-02-27 23:03:32
1042
原创 出租车轨迹数据预处理
这里认为某辆出租车在同一日期同一时间同一海拔高度只能有一条数据,如果有多条数据记录,则为重复数据,因此每组重复数据记录,只保留其中一条数据记录,其余的应该删除。由于本文的实验数据量比较大,所有用常规的方式进行数据处理,如数据清洗等,会比较消耗资源和时间,因此一般可以建立适当的索引、使用批处理的方法,可以加快处理的速度。与上一条数据记录比较时都没变化时,则上一条记录为异常数据,统计共有多少条异常数据。对数据表中的数据进行缺失值处理,由于样本数据量比较大,缺失值数据比较少,因此此处就直接将缺失值数据删除。
2024-07-09 17:18:28
1414
原创 数据导入与准备
实验目的:导入交通大数据与百度可视化准备二、实验内容:1.将提供的出租车GPS数据导入Mysql数据库以下为出租车GPS数据字段说明。本部分实验的内容包括:1)在mysql数据库中新建出租车数据表,注意:数据表的索引的建立。2)编写python程序,读取txt文件,并将与编号相对应的GPS数据写入数据表中。2. 申请百度地图APK,并且在实验报告中附上所申请百度地图apk的截图。百度地图开放平台网站:https://lbsyun.baidu.com。
2024-07-09 16:26:04
543
原创 Spark SQL编程初级实践
假设当前目录为/usr/local/spark/mycode/rddtodf,在当前目录下新建一个目录mkdir -p src/main/python,然后在目录/usr/local/spark/mycode/rddtodf/src/main/python下新建一个rddtodf.py,复制下面代码;(下列两种方式任选其一)首先在目录/usr/local/spark/mycode/sparksql下,用命令“gedit employee.json”创建文件,并把数据复制进去。
2024-04-12 16:37:13
2284
3
原创 sakila数据集中最受欢迎的电影题材和明星
在构建DVD数据仓库的基础上,再分析sakila数据集,找出最受欢迎的电影题材、销售数据,最受欢迎的电影明星
2023-12-18 16:59:24
320
1
原创 Sakila构建DVD租赁商店数据仓库(etl)
利用ETL技术对数据库sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统。
2023-12-04 18:02:41
1669
原创 Kettle 无人售货机项目实战
解决无人售货机收益无法达到最大化问题,需要分析客户每天的订单列表、订单详情和无人售货机日销售金额等数据,获取有关热销和滞销商品信息,以及无人售货机的收入和利润信息。
2023-10-30 15:36:16
8828
19
原创 Windows10下安装mysql-8.0.20-winx64
Windows10下安装mysql-8.0.20-winx64及环境变量的配置
2023-09-05 21:33:15
374
1
歌曲分类和流行度预测的数据集和源代码
2025-02-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人