- 博客(11)
- 收藏
- 关注
原创 出租车轨迹数据预处理
这里认为某辆出租车在同一日期同一时间同一海拔高度只能有一条数据,如果有多条数据记录,则为重复数据,因此每组重复数据记录,只保留其中一条数据记录,其余的应该删除。由于本文的实验数据量比较大,所有用常规的方式进行数据处理,如数据清洗等,会比较消耗资源和时间,因此一般可以建立适当的索引、使用批处理的方法,可以加快处理的速度。与上一条数据记录比较时都没变化时,则上一条记录为异常数据,统计共有多少条异常数据。对数据表中的数据进行缺失值处理,由于样本数据量比较大,缺失值数据比较少,因此此处就直接将缺失值数据删除。
2024-07-09 17:18:28 933
原创 数据导入与准备
实验目的:导入交通大数据与百度可视化准备二、实验内容:1.将提供的出租车GPS数据导入Mysql数据库以下为出租车GPS数据字段说明。本部分实验的内容包括:1)在mysql数据库中新建出租车数据表,注意:数据表的索引的建立。2)编写python程序,读取txt文件,并将与编号相对应的GPS数据写入数据表中。2. 申请百度地图APK,并且在实验报告中附上所申请百度地图apk的截图。百度地图开放平台网站:https://lbsyun.baidu.com。
2024-07-09 16:26:04 354
原创 Spark SQL编程初级实践
假设当前目录为/usr/local/spark/mycode/rddtodf,在当前目录下新建一个目录mkdir -p src/main/python,然后在目录/usr/local/spark/mycode/rddtodf/src/main/python下新建一个rddtodf.py,复制下面代码;(下列两种方式任选其一)首先在目录/usr/local/spark/mycode/sparksql下,用命令“gedit employee.json”创建文件,并把数据复制进去。
2024-04-12 16:37:13 1350 3
原创 sakila数据集中最受欢迎的电影题材和明星
在构建DVD数据仓库的基础上,再分析sakila数据集,找出最受欢迎的电影题材、销售数据,最受欢迎的电影明星
2023-12-18 16:59:24 224 1
原创 Sakila构建DVD租赁商店数据仓库(etl)
利用ETL技术对数据库sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统。
2023-12-04 18:02:41 1007
原创 Kettle 无人售货机项目实战
解决无人售货机收益无法达到最大化问题,需要分析客户每天的订单列表、订单详情和无人售货机日销售金额等数据,获取有关热销和滞销商品信息,以及无人售货机的收入和利润信息。
2023-10-30 15:36:16 7080 18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人