【大数据入门实践】hive wordcount

 hadoop wordcount 例子

1:
[hadoop@localhost bin]$ ./hadoop fs -mkdir -p /wordcount/input
19/03/10 21:05:37 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

2:
[hadoop@localhost bin]$ ./hadoop fs -put ~/data/wordcount.txt /wordcount/input/
19/03/10 21:07:01 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

3:[hadoop@localhost bin]$ ./hadoop fs -ls /wordcount/input
19/03/10 21:08:29 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 1 items
-rw-r--r--   1 hadoop supergroup         20 2019-03-10 21:07 /wordcount/input/wordcount.txt

4:
[hadoop@localhost mapreduce]$ ~/app/hadoop-2.6.0-cdh5.7.0/bin/hadoop jar wordcount /wordcount/input/ /wordcount/output/
Not a valid JAR: /home/hadoop/app/hadoop-2.6.0-cdh5.7.0/share/hadoop/mapreduce2/wordcount
[hadoop@localhost mapreduce]$ ~/app/hadoop-2.6.0-cdh5.7.0/bin/hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.7.0.jar wordcount /wordcount/input/ /wordcount/output/
19/03/10 21:11:26 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
19/03/10 21:11:27 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
19/03/10 21:11:28 INFO input.FileInputFormat: Total input paths to process : 1
19/03/10 21:11:28 INFO mapreduce.JobSubmitter: number of splits:1
19/03/10 21:11:28 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1552221496768_0002
19/03/10 21:11:29 INFO impl.YarnClientImpl: Submitted application application_1552221496768_0002
19/03/10 21:11:29 INFO mapreduce.Job: The url to track the job: http://localhost:8088/proxy/application_1552221496768_0002/
19/03/10 21:11:29 INFO mapreduce.Job: Running job: job_1552221496768_0002
19/03/10 21:11:39 INFO mapreduce.Job: Job job_1552221496768_0002 running in uber mode : false
19/03/10 21:11:39 INFO mapreduce.Job:  map 0% reduce 0%
19/03/10 21:11:44 INFO mapreduce.Job:  map 100% reduce 0%
19/03/10 21:11:50 INFO mapreduce.Job:  map 100% reduce 100%
19/03/10 21:11:51 INFO mapreduce.Job: Job job_1552221496768_0002 completed successfully
19/03/10 21:11:51 INFO mapreduce.Job: Counters: 49
	File System Counters
		FILE: Number of bytes read=44
		FILE: Number of bytes written=222971
		FILE: Number of read operations=0
		FILE: Number of large read operations=0
		FILE: Number of write operations=0
		HDFS: Number of bytes read=136
		HDFS: Number of bytes written=22
		HDFS: Number of read operations=6
		HDFS: Number of large read operations=0
		HDFS: Number of write operations=2
	Job Counters 
		Launched map tasks=1
		Launched reduce tasks=1
		Data-local map tasks=1
		Total time spent by all maps in occupied slots (ms)=3375
		Total time spent by all reduces in occupied slots (ms)=3556
		Total time spent by all map tasks (ms)=3375
		Total time spent by all reduce tasks (ms)=3556
		Total vcore-seconds taken by all map tasks=3375
		Total vcore-seconds taken by all reduce tasks=3556
		Total megabyte-seconds taken by all map tasks=3456000
		Total megabyte-seconds taken by all reduce tasks=3641344
	Map-Reduce Framework
		Map input records=2
		Map output records=6
		Map output bytes=44
		Map output materialized bytes=44
		Input split bytes=116
		Combine input records=6
		Combine output records=4
		Reduce input groups=4
		Reduce shuffle bytes=44
		Reduce input records=4
		Reduce output records=4
		Spilled Records=8
		Shuffled Maps =1
		Failed Shuffles=0
		Merged Map outputs=1
		GC time elapsed (ms)=100
		CPU time spent (ms)=890
		Physical memory (bytes) snapshot=321126400
		Virtual memory (bytes) snapshot=5423050752
		Total committed heap usage (bytes)=226627584
	Shuffle Errors
		BAD_ID=0
		CONNECTION=0
		IO_ERROR=0
		WRONG_LENGTH=0
		WRONG_MAP=0
		WRONG_REDUCE=0
	File Input Format Counters 
		Bytes Read=20
	File Output Format Counters 
		Bytes Written=22

5:[hadoop@localhost mapreduce]$ ~/app/hadoop-2.6.0-cdh5.7.0/bin/hadoop fs -ls /wordcount/output
19/03/10 21:13:39 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Found 2 items
-rw-r--r--   1 hadoop supergroup          0 2019-03-10 21:11 /wordcount/output/_SUCCESS
-rw-r--r--   1 hadoop supergroup         22 2019-03-10 21:11 /wordcount/output/part-r-00000

6:
[hadoop@localhost mapreduce]$ ~/app/hadoop-2.6.0-cdh5.7.0/bin/hadoop fs -text /wordcount/output/part-r-00000
19/03/10 21:15:25 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
bb	1
dd	3
rr	1
zhdc	1
[hadoop@localhost mapreduce]$ 

Hive 实现 word count

1:创建表
create table d6_wc(sentence string);

hive> create table d6_wc(sentence string);
OK
Time taken: 0.417 seconds

hive> 
    > select * from d6_wc;
OK
Time taken: 0.43 seconds

2:倒入数据进hive 表
hive> load data local inpath '/home/hadoop/data/wordcount.txt' into table d6_wc;
Loading data to table default.d6_wc
Table default.d6_wc stats: [numFiles=1, totalSize=20]
OK
Time taken: 1.213 seconds

hive> select * from d6_wc;
OK
zhdc	dd	dd	bb
rr	dd
Time taken: 0.115 seconds, Fetched: 2 row(s)
hive> 
1:进行单词统计
hive> select word,count(1) c
    > from
    > (select explode(split(sentence,'\t')) as word from d6_wc) t
    > group by word
    > order by c desc;

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Hive on Spark是大数据处理中的最佳实践之一。它将Hive和Spark两个开源项目结合起来,使得Hive可以在Spark上运行,从而提高了数据处理的效率和速度。Hive on Spark可以处理大规模的数据,支持SQL查询和数据分析,同时还可以与其他大数据工具集成,如Hadoop、HBase等。在实际应用中,Hive on Spark可以用于数据仓库、数据分析、机器学习等领域,是一种非常实用的大数据处理方案。 ### 回答2: 随着大数据应用的不断增多,越来越多的企业开始关注大数据技术的实现与应用。Hive是基于Hadoop的开源数据仓库系统,它提供了一种类似于SQL的语言,使得非技术用户能够方便地查询大量数据。而Spark则是现在最流行的分布式计算框架,因其内存计算功能,比Hadoop更加高效和快速。 在实践中,Hive on Spark将两个框架结合在一起,提供了更高效和实用的解决方案。在Hive on Spark中,数据可以通过Spark来加速计算和查询,从而实现更高效的大数据处理。Hive on Spark集成了Spark的强大内存计算引擎,可以支持更大规模的数据处理和更快速的查询处理,同时还可以提供更好的性能、更低的延迟和更低的处理成本。 Hive on Spark采用了Spark作为计算框架,Spark可以很快地对Hive上的数据进行处理,因此可以处理数百亿条数据。此外,由于Spark是基于内存的计算框架,因此可以大大提高计算速度,并消除了磁盘IO瓶颈。因此,Hive on Spark可以支持更快的查询响应时间和更高的用户并发性能。 除了这些,Hive on Spark还提供了更简单的应用管理和维护,对提高大数据处理效率和时间的优化非常有利。同时,它还提供了机器学习和深度学习模型的处理能力,从而可以实现更广泛的数据分析应用。尤其对于非技术人员,通过Hive on Spark,用户可以快速地实现自己的数据分析需求,从而实现有效管理和使用数据。 总之,Hive on Spark是目前最有效和实用的大数据处理和管理框架之一。它使得数据分析变得更加简单和高效,并可以快速满足业务需求,使企业在大数据技术和应用方向上取得更大成就。 ### 回答3: Hive on Spark是一种基于Apache Spark的分布式计算系统,它将Apache Hive和Spark技术相结合,提供了更加高效的数据处理和分析能力。在大数据行业中,Hive on Spark已经成为了一种最佳实践,因为它能够帮助企业实现更快的数据处理速度和更高的数据处理能力。 首先,Hive on Spark可以让企业更加轻松地使用Spark进行数据处理和分析。Apache Spark是一种流行的分布式计算框架,拥有强大的数据处理能力和高效的架构。而Hive on Spark将Hive SQL和Spark技术相结合,让企业用户能够以更加简单的方式使用Spark进行数据分析和处理。 其次,Hive on Spark能够极大地提高数据处理的速度和能力。Hive on Spark通过将Hive SQL转换为Spark的RDD操作,能够在分布式环境下对大规模数据进行高效的处理和分析。相比于传统的Hadoop集群,Hive on Spark可以提供更高的数据处理速度和更高的数据处理能力,能够帮助企业更加顺畅地进行数据分析和决策。 最后,Hive on Spark还具有可扩展性和灵活性。企业用户可以根据自身的需求对Spark集群进行扩容或者缩容,以满足更加多样化的数据处理需求。同时,Hive on Spark还支持多种数据格式,包括Hive表、CSV、JSON等,能够帮助企业更加灵活地处理不同类型的数据。 总之,Hive on Spark是大数据行业最佳实践之一,它能够帮助企业客户更加方便地使用Spark进行数据处理和分析,提高数据处理的速度和能力,同时还具有可扩展性和灵活性等特点,能够帮助企业更加高效地进行数据分析和决策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值