数据挖掘建模实例

本文详细介绍了数据挖掘中的数据抽取方法,包括使用Hive和pandas的策略,接着讨论了数据预处理步骤,如数据清洗、删除重复数据、标准化和主成分分析,用于降维和理解数据的相关性。
摘要由CSDN通过智能技术生成

 

一、数据抽取

日均增长数据 10G,取宽度为 2年的时间段作为观测窗口,项目数据为 6 T(若日均增长数据 14 G,则项目数据 10 T)。

TB 量级以上的海量数据,要考虑存储和计算的效率问题。

基于分布式存储以后,数据被分布式存储在不同的服务器上,那么可以采用分布式计算框架(Mapreduce,Spark)来进行并行计算,大幅度提高工作效率。l

方法一,使用 Hive 导入数据到 HDFS:

导入数据语法如下:

LOAD DATA [LOCAL] INPATH 'filepath' OVERWRITE INTO TABLE table_name PARTITION(字段=‘值’)

Hive中导入数据有4种方式:本地导入、HDFS 导入、单表插入、多表插入

LOAD操作将数据文件移动到 Hive 表对应的位置,如果没有 local 关键字,那么会查找 HDFS 上面l的路径。

filepath 可以是如下类型:

  • 相对路径:例如 project/data
  • 绝对路径:例如 /usr/hive/project/data     (推荐使用)
  • 包含模式的完整 URL:例如  hdfs:/namenode:8020/user/hive/project/data

OVERWRITE 指定覆盖表之前的数据,如果是追加,则去掉 OVERWRITE 关键字

创建”石油产量原始数据表“ t_oilwproduction_origin 表,本地导入数据 hive/data/oilinfo.txt:

#创建表 t_oilwproduction_origin
CREATE TABLE t_oilproduction_origin(
oilwell_ID int,
oilw_output_total string,  #产量
oilw_output_volume string,  #产量体积
oilw_output_water string, #产量含水量
oilw_output_effoil string,  #有效产油量
oilw_concentration string,  #采聚浓度  产量/产量体积
oilw_pressure string,  #井下压力
oilw_pressure_eff string  #破裂压力) 
ROW FORMAT DELIMATED FIELDS TERMINATED BY ',';    #表列数据用 ‘,’ 分隔

#导入数据
LOAD DATA [local] INPATH 'hive/data/oilinfo.txt' OVERWRITE INTO TABLE t_oilproduction_origin;

单表插入:从一张表中查询数据插入另一张表,两张表都是

  • 2
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值