kettle+mysql+Python(Pandas,Patplotlip)实现大数据预处理(饼图,柱状图)

环境准备

kettle
mysql数据库
Python环境

要求

  1. 使用预处理工具(kettle)将提供的文本数据进行清理,并导入到数据库;
  2. 对清洗完成的数据进行分析统计,统计各个城市的用户在流量与语音的平均支出,并使用Python绘制成图表,保存结果;
  3. 统计各个年龄阶段的用户在流量与语音的平均支出,并使用Python绘制成图表,保存结果

提前看结果

在这里插入图片描述
在这里插入图片描述

获取数据

数据为两个不同csv文件
在这里插入图片描述
获取百度网盘
链接:https://pan.baidu.com/s/1ocLrIhY5rHAzwdKdvZr13g
提取码:klyo

处理数据

1.打开kettle 工具

  1. 新建转换
    在这里插入图片描述
  2. 突出如下图步骤
    在这里插入图片描述
  3. 进行步骤配置
    3.1 、CSV文件输入sim卡客户信息表
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    3.2 CSV文件输入2 (和上面操作一样,选择sim卡客户消费记录.csv即可)
    在这里插入图片描述
    在这里插入图片描述
    3.3 排序记录
    在这里插入图片描述
    3.4 排序记录2
    在这里插入图片描述
    3.5记录连接2
    在这里插入图片描述
    在这里插入图片描述
    3.6 字段选择
    在这里插入图片描述
    在这里插入图片描述
    3.7 表输出(我这里用的是Navicat管理工具,其他方法相同)
    3.7.1 创建一个kettle数据库以及qimozy表
    在这里插入图片描述
    不想手动创建直接给给一个sql吧!
    直接运行下面sql语句即可创建出表和字段
SET NAMES utf8mb4;
SET FOREIGN_KEY_CHECKS = 0;
DROP TABLE IF EXISTS `qimozy`;
CREATE TABLE `qimozy`  (
  `用户id` varchar(32) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
  `性别` varchar(4) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL,
  `年龄` bigint(0) NULL DEFAULT NULL,
  `归属地` varchar(100) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL,
  `在网时长` bigint(0) NULL DEFAULT NULL,
  `状态` char(100) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL,
  `总收入` varchar(100) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL,
  `增值收入` varchar(
  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值