环境准备
kettle
mysql数据库
Python环境
要求
- 使用预处理工具(kettle)将提供的文本数据进行清理,并导入到数据库;
- 对清洗完成的数据进行分析统计,统计各个城市的用户在流量与语音的平均支出,并使用Python绘制成图表,保存结果;
- 统计各个年龄阶段的用户在流量与语音的平均支出,并使用Python绘制成图表,保存结果
提前看结果
获取数据
数据为两个不同csv文件
获取百度网盘
链接:https://pan.baidu.com/s/1ocLrIhY5rHAzwdKdvZr13g
提取码:klyo
处理数据
1.打开kettle 工具
- 新建转换
- 突出如下图步骤
- 进行步骤配置
3.1 、CSV文件输入sim卡客户信息表
3.2 CSV文件输入2 (和上面操作一样,选择sim卡客户消费记录.csv即可)
3.3 排序记录
3.4 排序记录2
3.5记录连接2
3.6 字段选择
3.7 表输出(我这里用的是Navicat管理工具,其他方法相同)
3.7.1 创建一个kettle数据库以及qimozy表
不想手动创建直接给给一个sql吧!
直接运行下面sql语句即可创建出表和字段
SET NAMES utf8mb4;
SET FOREIGN_KEY_CHECKS = 0;
DROP TABLE IF EXISTS `qimozy`;
CREATE TABLE `qimozy` (
`用户id` varchar(32) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
`性别` varchar(4) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL,
`年龄` bigint(0) NULL DEFAULT NULL,
`归属地` varchar(100) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL,
`在网时长` bigint(0) NULL DEFAULT NULL,
`状态` char(100) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL,
`总收入` varchar(100) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL,
`增值收入` varchar(