大数据
文章平均质量分 67
__静禅__
这个作者很懒,什么都没留下…
展开
-
Hadoop --- 入门之简介
Hadoop概述Hadoop是一个用于分布式大数据处理的编程框架。同时它也是个大数据处理完整的生态系统,围绕着Hadoop,这个生态系统还包括但不限于:HBase Hive Pig Spark ZooKeeper希望本系列的写作能够坚持下去,对上述内容都有所涉及吧。 Hadoop能干什么假设老王在某不知名IT公司工作,由于最近太阳活动异常,引起了领导的外甥的读硕士的同...转载 2018-10-16 13:32:16 · 364 阅读 · 0 评论 -
Hadoop --- 入门之MapReduce示例
单词统计(WordCount)示例:1、定义一个Mapper类:import java.io.IOException;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache....原创 2018-10-19 15:24:57 · 591 阅读 · 0 评论 -
Hadoop --- 入门之HDFS的JAVA API操作
JAR准备:将hadoop-2.8.0中share目录下的jar包添加到工程中:common下的hadoop-common-2.8.0.jar common/lib下的所有jar hdfs下的hadoop-hdfs-2.8.0.jar hdfs/lib下的所有jar 示例:import java.io.FileInputStream;import java.io.Fil...原创 2018-10-16 16:35:24 · 627 阅读 · 0 评论 -
Hadoop --- 入门之HDFS命令
目录FS ShellcatchgrpchmodchowncopyFromLocalcopyToLocalcpdudusexpungegetgetmergelslsrmkdirmovefromLocalmvputrmrmrsetrepstattailtesttexttouchzhdfs d...转载 2018-10-16 13:56:37 · 931 阅读 · 0 评论 -
Hadoop --- 入门之配置参数
Hadoop参数汇总@(hadoop)[配置] linux参数以下参数最好优化一下:文件描述符ulimit -n 用户最大进程 nproc (hbase需要 hbse book) 关闭swap分区 设置合理的预读取缓冲区 Linux的内核的IO调度器 JVM参数JVM方面的优化项Hadoop Performance Tuning Guide Hadoo...转载 2018-10-16 11:59:36 · 714 阅读 · 0 评论 -
Hadoop --- 入门之环境搭建
前期准备CentOS7版本的服务器4台:(IP地址可以根据自己服务器或虚拟机的IP地址更改)192.168.153.136 hadoop01192.168.153.137 hadoop02192.168.153.138 hadoop03192.168.153.139 hadoop04 Hadoop包:http://archive.apache.org/dist/hado...原创 2018-10-16 13:32:06 · 2066 阅读 · 0 评论