大数据-Hadoop
文章平均质量分 83
your_blue_sky
这个作者很懒,什么都没留下…
展开
-
大数据学习路线推荐
转自:https://www.cnblogs.com/zlslch/p/5448857.html1 Java基础:视频方面: 推荐《毕向东JAVA基础视频教程》。学习hadoop不需要过度的深入,java学习到javase,在Java虚拟机的内存管理、以及多线程、线程池、设计模式、并行化多多理解实践即可。书籍方面: 推荐李兴华的《java开发实战经典》...转载 2018-08-01 11:35:25 · 4867 阅读 · 1 评论 -
第一个wordcount程序
在hadoop集群中,系统自带了许多mapreduce的程序例子,在{%HOME%}/hadoop-mapreduce/hadoop-mapreduce-examples.jar里面有许多小例子,可以在hadoop集群中直接运行命令.当然运行前需要在HDFS上创建input目录和output目录,input目录需要一个输入文件,比如/s_tmp/input/tmp.txt接下来需要创建ou...原创 2018-08-10 15:44:34 · 2498 阅读 · 1 评论 -
hadoop单机部署,用来测试
转载自ee900222的博客2. Hadoop安装2.1 安装javaHadoop是使用JAVA写的,所以需要先安装JAVA环境。本次安装的是hadoop-2.7.0,需要JDK 7以上版本。 yum install java-1.7.0-openjdk yum install java-1.7.0-openjdk-devel安装后确认java –vers...原创 2018-08-11 13:35:49 · 427 阅读 · 0 评论 -
hadoop集群spark配置,jupyter notebook,ubuntu
下载安装jupyter notebook,并配置,详见另一篇博客,jupyter notebook配置安装python包 findspark、pyspark。用findspark.init函数配置集群中spark-client2路径,python路径。import findsparkfindspark.init(spark_home="/usr/hdp/current/spark2...原创 2018-08-14 22:52:15 · 662 阅读 · 0 评论 -
Spark相对于MapReduce的优势对比
Spark相对于MapReduce的优势MapReduce存在的问题1. MapReduce框架局限性 1)仅支持Map和Reduce两种操作 2)处理效率低效。 a)Map中间结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据; 任务调度和启动开销大; b)无法充分利用内存 c)Map端和Reduce端均需要排序 3...原创 2018-08-16 11:20:35 · 5340 阅读 · 0 评论