hive
文章平均质量分 56
sanfendi
这个作者很懒,什么都没留下…
展开
-
Hive Python Streaming的原理及写法
在Hive中,需要实现Hive中的函数无法实现的功能时,就可以用Streaming来实现。其原理可以理解成:用HQL语句之外的语言,如Python、Shell来实现这些功能,同时配合HQL语句,以实现特殊的功能。 比如,我有一张不同网站访问的日志表,其中有两个列是url和ref,分别代表当前访问的网址和来源地址,我想要查看用户的来源,即看用户都是从那些网站跳到这些网站上去的,这里有些网站可能域名原创 2014-08-07 19:49:29 · 4697 阅读 · 0 评论 -
Hive自定义函数的使用——useragent解析
想要从日志数据中分析一下操作系统、浏览器、版本使用情况,但是hive中的函数不能直接解析useragent,于是可以写一个UDF来解析。useragent用于表示用户的当前操作系统,浏览器版本信息,形如: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 S原创 2014-10-30 16:56:34 · 6910 阅读 · 2 评论 -
在Hadoop监控页面如何查看Hive的完整SQL
如图,这里只能看到简单的一段SQL,几乎看不出具体在执行什么任务。 此时可以点开一个application,点击Tracking URL: ApplicationMaster 进入到MapReduce Job job_1409xxxx,Job页面 点击左侧的Configuration 这里有此Job对应的所有参数,在 右上角的搜索框中输入string, 其中key为 hive.原创 2014-10-13 11:31:03 · 7168 阅读 · 0 评论
分享