[同步]实习第二天

原文地址: http://nourlcn.ownlinux.net/2011/10/diary-practice-second-day.html

本博客订阅地址:http://feeds.feedburner.com/nourlcn


本该昨天晚上总结的.

但昨天下班后赶紧回去收拾一下,今天坐了12个小时的龟速大巴才到家,现在补上吧.

实习第二天,上午对第一天的工作进行了融合,写了一个shell脚本将数据抓取、导入Hive、MapReduce处理、导入Mysql等步骤进行自动处理.
中间因为不熟悉Hive的查询、join用法等花费了一些时间.

中午吃饭时,看见开复童鞋进来貌似拿了个包子回办公室了,哈哈~

下午写了个py文件,生成指定格式的测试log file,预期目标是生成300G的文件在hadoop集群上测试,考虑到实际的数据量可能不需要这么大,先设置i循环为5亿,生成50G的big file.

因为我使用shell远程链接服务器进行开发,shell session过期后程序可能会中断,因此学了一下daemon进程的编写,下班前将py程序改成daemon进程执行.

再一次感慨,实习所接触的东西比较实在,比在实验室强多了.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值