HADOOP STREAMING实例HIVE引用PYTHON

最新推荐文章于 2024-07-04 08:11:05 发布

UckyK

最新推荐文章于 2024-07-04 08:11:05 发布

阅读量2.1k

点赞数

本文链接：https://blog.csdn.net/UckyK/article/details/50529784

版权

背景：

现有一个staff(员工信息表),表中包含字段name(员工姓名)time(工作时间)per_money(每小时金钱)；

数据如下：

要求：创建一个表,作为salary(工资表),表中包含字段name(员工姓名)total_money(工作时间*每小时金钱)，将对staff表计算结果插入到salary表中；

解决方案：1､HQL计算

2､hadoop streaming

3､hadoop mapreduce

1､创建表

create table salary(name string , total_money int)
row format delimited 
fields terminated by ‘\t’
lines terminated by ‘\n’

2、编辑python.py

import sys
for line in sys.stdin:
one = line.strip().split('\t')
print "%s\t%d" %(one[0],int(one[1])*int(one[2]))

3、运行hive命令

Add file /opt/study/python.py

注：/opt/study/python.py是本地路径

from  staff
insert overwrite table salary
select transform(name,time,per_money)  using 'python /opt/study/python.py'
as  name , total_money

4、查询salary表

5、核对前面数据，结果正确

6、以上全部为个人整理实践所得，供大家参考学习

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

UckyK

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Hadoop原理与代码实例讲解

程序员光剑

07-02

347

Hadoop原理与代码实例讲解作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming / TextGenWebUILLM Hadoop原理与代码实例讲解关键词：Hadoop原理,Hadoop生态

hadoop_hive_python_mysql实践完整包.rar

03-05

本实践项目通过一个网站的运营日志，利用hadoop/hive/sqoop/mysql/python等一系列组件联合实践分析挖掘网站运营数据。是不可多得的完整的学习、讲课案例资源。本资源包含ppt、代码、文档及所需数据。

参与评论您还未登录，请先登录后发表或查看评论

Hadoop Streaming & Hive Tips

travischan的博客

09-14

419

Hadoop Streaming & Hive Tips

Hive Python Streaming的原理及写法

三分地

08-07

4653

在Hive中，需要实现Hive中的函数无法实现的功能时，就可以用Streaming来实现。其原理可以理解成：用HQL语句之外的语言，如Python、Shell来实现这些功能，同时配合HQL语句，以实现特殊的功能。比如，我有一张不同网站访问的日志表，其中有两个列是url和ref，分别代表当前访问的网址和来源地址，我想要查看用户的来源，即看用户都是从那些网站跳到这些网站上去的，这里有些网站可能域名

hadoop streaming 使用总结

coder_oyang的博客

11-08

848

hadoop client：客户端可以让用户访问集群，hadoop client 使用手册，通过配置hadoop-site.xml文件，实现访问不同集群，同时该客户端目录的 xx/xx/hadoop/bin/hadoop 是你配置的hadoop命令路径，在streaming命令参数配置时，需要指明该hadoop位置，对于该命令，可以通过alias hadoopdr='xx/xx/hadoop/...

hadoop streaming 坑

zjilvufe的专栏

01-23

587

1、用python写流处理脚本如果如下代码，不处理标准数据： # encoding=utf8 # import sys #for each in sys.stdin:------------------不处理流 # pass try: import logs print 'have logs, coooool' except: pri

大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

m0_46689661的博客

12-05

9754

大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

Python实战，Hadoop开发环境，如何分析处理大数据

最新发布

一个好知识的传播者

07-04

845

Python与Hadoop的结合为大数据处理与分析提供了强大的工具。Python的灵活性和丰富的库使得数据处理和分析变得更加高效和便捷，而Hadoop的分布式计算能力则使得处理大规模数据集成为可能。未来，随着大数据技术的不断发展，Python和Hadoop将在更多领域得到应用。同时，我们也需要关注新技术和新工具的出现，如Flink、Kafka等实时数据处理框架，以及深度学习、机器学习等人工智能技术在大数据分析中的应用。这些新技术和工具将进一步推动大数据处理与分析领域的发展和创新。

spark--bin-hadoop3-without-hive.tgz

09-17

总的来说，"spark--bin-hadoop3-without-hive.tgz"提供了一个在CentOS 8和Hadoop 3.1.3环境下运行的Spark实例，不包含Hive支持，适合那些需要高效大数据处理而不依赖Hive功能的用户。要充分利用这个版本，理解Spark...

hadoop几个实例

07-28

7. **编程接口**：Hadoop提供了Java API来编写MapReduce程序，但也有如Hadoop Streaming这样的接口，允许使用其他语言（如Python、Perl）编写Mapper和Reducer。 8. **数据处理范式**：MapReduce遵循“批处理”处理...

HADOOP MapReduce 处理 Spark 抽取的 Hive 数据【解决方案一】

为了更好的未来_加油

06-21

799

今天咱先说问题，经过几天测试题的练习，我们有从某题库中找到了新题型，并且成功把我们干趴下，昨天今天就干了一件事，站起来。沙问题？ java mapeduce 清洗 hive 中的数据，清晰之后将driver代码进行截图提交。 spark之前抽取的数据是.parquet格式的，对 mapreduce 不太友好，我决定从新抽取，还是用spark技术，换一种文件格式使用新方法进行sink的时候我是直接like别的现成表结构折磨干的，后来hive分割字段都TM乱套啦，赞看看！ 1.使用scala+sp

用puthivestreaming把hdfs里的数据流到hive表

weixin_34270865的博客

11-06

195

全景图： 1. 创建hive表 1 2 3 4 5 6 7 CREATE TABLE IF NOT EXISTS newsinfo.test( name STRING ) CLUSTERED BY (name)INTO3BUCKETS ROW FORMAT DELIMITED STORED AS ORC TBLPR...

HIVE Streaming小结

Arch_zly的博客

04-29

4263

HIVE中的查询可以结合使用非java语言的脚本（比如shell、python、perl等），达到另一种处理数据的方式。下面通过自己亲自实践的测试程序说明Streaming的常见用法：（1）恒等变换（2）改变类型（3）投影变换（4）操作转换（5）使用分布式内存（6）CLUSTER BY、DISTRIBUTE BY、SORT BY （7）计算cogroupStreaming HIVE是通过...

Hadoop Streaming编程实例

xyjikl

04-09

844

Hadoop Streaming是Hadoop提供的多语言编程工具，通过该工具，用户可采用任何语言编写MapReduce程序，本文将介绍几个Hadoop Streaming编程实例，大家可重点从以下几个方面学习：（1）对于一种编写语言，应该怎么编写Mapper和Reduce，需遵循什么样的编程规范（2）如何在Hadoop Streaming中自定义Hadoop Count

hadoop-streaming 例子

01-04

149

Hadoop Streaming是Hadoop提供的一个编程工具，它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer，例如：采用shell脚本语言中的一些命令作为mapper和reducer（cat作为mapper，wc作为reducer） ...

详解hive的列分隔符和行分隔符的使用