hadoop平台使用以及hive命令

本文分享了作者在公司使用Hadoop平台处理大数据的经验,涉及HDFS操作如hls、hget,以及通过SSH和SCP进行文件传输。文章提到了通过Hive进行SQL-like操作执行MapReduce任务,并指出学习Java、Scala、Shell和Python对于编写MapReduce代码的重要性。作者还提及了CTR和CVR的计算,但因保密协议未详述具体实现。
摘要由CSDN通过智能技术生成

本篇文章记录了自己来公司之后的一些操作,因为公司有保密要求,故所以涉及到密码之类的都会屏蔽掉。我们团队在公司负责的业务就是推荐广告,计算广告的ctr和cvr。处理的数据主要是服务器端生成的日志,按照类别主要有六个日志,ct_show,action,click,down,land,inview,其中ct_show包含了我们所有的信息。由于log的数据量很大,所以我们的操作都是在hadoop平台上进行的。我们在自己的电脑先登录到hadoop的开发机上,然后用开发机进行数据处理工作,目前有两种方式可以远程登录另一终端,在windows上面可以用ssh,在linux上面,自己配置脚本,输入终端机的ip,mima,端口或者是终端名字和密码。连接上终端之后就可以进行数据处理工作了。

hls-----可以显示所有hdfs上面的文件

hls -open可以显示具体文件夹上面的文件

hget可以下载具体的文件

其中使用ssh链接的话可以穿上去(rz),取下来(sz)

scp可以在linux下面进行文件传输

一般在vim打开文件编辑sh脚本的话,可以nohup ./ ---.sh & 来让程序在后端执行,然后可以用tail -f ----nohup.out来查看运行情况。

其中脚本中一般都包含了带有jar的文件,里面有文件的路径,和输入、输出路径。

其中maven这个一定要下载好,可以编译成jar包。

hive是一个在hdfs之上的框架,可以进行类似于sql的语句来运行map-reduce代码,比如show databases;use .....;show tables

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值