python调用hive与java调用区别_python和hive结合使用

主要工作:利用python脚本对日志文件解析,将解析后的每个字段存放到对应表中;

(1)创建自己的数据库,存放所有自己建立的表:

hive>create database lina;

(2)进入数据库中,并创建两个表格分别是record,log:

hive>create table record(da string);

hive>load data inpath '/source_data/日志文件' into table

record;

这样每一行日志就存放到da中,下步就是调用python脚本对da中的字符串进行解析。在此之前要把python脚本存放到mysql数据库,该脚本在每一启动Hive的时候都要重新加载一次;

hive> add file

/data0/cdh/WeiboLog/resolveLog.py;

出现下面的就表示成功:Added resource:

/data0/cdh/WeiboLog/resolveLog.py

hive>

create log(server string,time string, url string,appkey string,uid

string,ip string,pool string);

hive> from

record > insert overwrite table

log > select TRANSFORM(da) using 'resolveLog.py' as

serive,time,url,appkey,uid,ip,pool;

这样就能把数据加载到表log中,可以对log表进行SQL操作!!!!

弄出来真不容易,太感谢师傅了!!!

存在问题:

在创建表record时,要设置文本分隔符,否则会导致结果错误。比如通过mapreduce统计的日志文件是20505509条,而计算没有设置行分隔符的表record的结果是21771333条,结果偏差很大,以后建表时要注意的问题。

重新建立表records,如下:

hive> create table records(line string)

> row format delimited

> lines terminated by '\n' stored as

textfile

> load data inpath

'/source_data/openapi_v4-2012-07-18_00000' into table records;

建立表logs:

hive> create table

logs(server string,time string, url string,appkey string,uid

string,ip string,pool string)

> row format

delimited> fields terminated by

'\001' > lines terminated by '\n' stored as

textfile;

将表records中的数据导入表logs中:

hive> add file

/data0/cdh/WeiboLog/resolveLog.py;

Added resource: /data0/cdh/WeiboLog/resolveLog.py

hive> from records

> insert overwrite table logs

> select transform(line)

> using 'resolveLog.py'

> as server,time,

url,appkey,uid,ip,pool;

这样在运行hive> select count(*) from

logs;结果就正确了!!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值