小蟹dal-CSDN博客

原创数据分析、数据挖掘项目合集

基于ETL工具，对数据库Sakila中的数据进行清洗操作，从而构建一个DVD租赁商店数据仓库系统，即实现定期从源数据仓库Sakila中抽取增量数据，转换成符合DVD租赁业务的数据，最后加载到目标仓库中。通过爬虫技术爬取网易云音乐歌单信息，将爬取到的信息进行数据预处理、数据清洗，然后爬取到的信息保存到MySQL数据库中，最后采用统计汇总和统计的方法对数据进行总结，将数据可视化出来。首先对数据集进行预处理，预处理后的数据进行探索性分析，观察各变量的分布情况，各变量之间是否存在关系，如线性关系、相关性等。

2025-02-28 18:23:42 735

原创西饼屋订单关联分析

首先是通过对订单数据的统计，我们发现饮品类商品在销售中占据主导地位，尤其是纯牛奶和豆浆。然后利用Apriori算法，我挖掘了商品间的关联规则。最后对结果进行可视化，包括条形图、散点图、网络图和热力图，来展示分析结果，这些图表直观地呈现了商品销售的统计数据和关联规则的重要指标。

2025-02-28 16:43:23 718 1

原创歌曲分类和流行度预测

本项目为了充分了解歌曲数据集，主要从歌曲分类和歌曲流行度预测入手。其中歌曲分类依次用了决策树分类器、随机森林分类器、xgboost分类器进行分类，从结果来看，决策树分类器的分类效果最不好，然后xgboost分类器的分类效果最好，准确率可以达到92%。歌曲流行度预测选用随机森林回归器和梯度提升回归器对歌曲流行度进行预测，使用sklearn中的Grid Search方法进行最佳超参数组合的搜索，预测效果较好，最低平均绝对误差为16.45。在该预测模型中音轨时间、速度和音量是歌曲流行度预测中贡献率的前三。

2025-02-28 15:10:32 1099

原创爬取网易云歌单信息并分析

从网易云网站爬取歌单信息，然后进行数据清洗，并对清洗后的数据进行数据分析

2025-02-28 13:08:59 2112

原创对泰坦尼克号沉没事件幸存者数据分析和预测

Titanic.csv数据中包含了891个样本，记录了泰坦尼克号遇难时的891个乘客的基本信息，其中包括以下信息：PassengerId: 乘客编号Survived: 生还情况，生还为1，死亡为0Pclass: 舱位，分为1，2，3等，1为最高的，3为最低等Name: 姓名Sex: 性别Age: 年龄SibSp: 同船的兄弟姐妹或配偶Parch: 同船的父母或子女Ticket: 船票信息Fare: 乘客票价Cabin: 客舱编号。

2025-02-28 12:06:22 2607 5

原创多元统计各类分析（二）

因子分析、对应分析、典型相关分析

2025-02-28 11:42:09 833

原创多元统计各类分析（一）

判别分析、聚类分析、主成分分析

2025-02-28 11:17:00 849

原创广义线性模型下的数据分析（R语言）

利用R实现线性回归分析、逻辑回归、列联分析及方差分析，并能对分析结果进行解读。

2025-02-28 10:57:41 1272

原创多元数据直观表示（R语言）

以前的工作经历大多集中在0-120个月，即1-10年，随着工作经历的增加，会出现少数再找工作时，其初始工资很高，但是总体工作经历对其再工作时的初始工资没有什么影响。从均值来看，等级1、2的受教育的年限均值相同，等级3最高，但等级1、2的薪资均值相差不大，等级3的薪资却比等级1、2高得多，从某种程度上可以表明受教育年限越高，其薪资也越高。的多一点儿，表明工作时间会对薪资有一定的影响，但薪资并不是只由工作时间直接决定的，还存在其他因素对其有影响。：以前工作经历，指在其他单位累计工作时间（单位：月）；

2025-02-27 23:03:32 1042

原创出租车交通预测

使用出租车数据进行交通预测实验

2025-02-27 18:40:48 433

原创计算出行OD表和绘制城市热点区域

1. 计算出租车出行OD表2. 绘制城市热点区域

2025-02-27 18:32:26 1494

原创出租车轨迹数据预处理

这里认为某辆出租车在同一日期同一时间同一海拔高度只能有一条数据，如果有多条数据记录，则为重复数据，因此每组重复数据记录，只保留其中一条数据记录，其余的应该删除。由于本文的实验数据量比较大，所有用常规的方式进行数据处理，如数据清洗等，会比较消耗资源和时间，因此一般可以建立适当的索引、使用批处理的方法，可以加快处理的速度。与上一条数据记录比较时都没变化时，则上一条记录为异常数据，统计共有多少条异常数据。对数据表中的数据进行缺失值处理，由于样本数据量比较大，缺失值数据比较少，因此此处就直接将缺失值数据删除。

2024-07-09 17:18:28 1414

原创数据导入与准备

实验目的：导入交通大数据与百度可视化准备二、实验内容：1.将提供的出租车GPS数据导入Mysql数据库以下为出租车GPS数据字段说明。本部分实验的内容包括：1）在mysql数据库中新建出租车数据表，注意：数据表的索引的建立。2）编写python程序，读取txt文件，并将与编号相对应的GPS数据写入数据表中。2. 申请百度地图APK，并且在实验报告中附上所申请百度地图apk的截图。百度地图开放平台网站：https://lbsyun.baidu.com。

2024-07-09 16:26:04 543

原创 Spark SQL编程初级实践

假设当前目录为/usr/local/spark/mycode/rddtodf，在当前目录下新建一个目录mkdir -p src/main/python，然后在目录/usr/local/spark/mycode/rddtodf/src/main/python下新建一个rddtodf.py，复制下面代码；（下列两种方式任选其一）首先在目录/usr/local/spark/mycode/sparksql下，用命令“gedit employee.json”创建文件，并把数据复制进去。

2024-04-12 16:37:13 2284 3