本篇文章记录了自己来公司之后的一些操作,因为公司有保密要求,故所以涉及到密码之类的都会屏蔽掉。我们团队在公司负责的业务就是推荐广告,计算广告的ctr和cvr。处理的数据主要是服务器端生成的日志,按照类别主要有六个日志,ct_show,action,click,down,land,inview,其中ct_show包含了我们所有的信息。由于log的数据量很大,所以我们的操作都是在hadoop平台上进行的。我们在自己的电脑先登录到hadoop的开发机上,然后用开发机进行数据处理工作,目前有两种方式可以远程登录另一终端,在windows上面可以用ssh,在linux上面,自己配置脚本,输入终端机的ip,mima,端口或者是终端名字和密码。连接上终端之后就可以进行数据处理工作了。
hls-----可以显示所有hdfs上面的文件
hls -open可以显示具体文件夹上面的文件
hget可以下载具体的文件
其中使用ssh链接的话可以穿上去(rz),取下来(sz)
scp可以在linux下面进行文件传输
一般在vim打开文件编辑sh脚本的话,可以nohup ./ ---.sh & 来让程序在后端执行,然后可以用tail -f ----nohup.out来查看运行情况。
其中脚本中一般都包含了带有jar的文件,里面有文件的路径,和输入、输出路径。
其中maven这个一定要下载好,可以编译成jar包。
hive是一个在hdfs之上的框架,可以进行类似于sql的语句来运行map-reduce代码,比如show databases;use .....;show tables