大数据系列
奔跑着的国风
为了梦想,一切都是值得的!!!加油吧,小伙伴们!!!
展开
-
电信行业大数据应用的四个方向
引言大数据无疑是近两年最热门的词语,“大数据”最早由全球知名咨询公司麦肯锡提出,麦肯锡认为[1]:大数据“是创新、竞争和生产力的下一个前沿领域”,可以利用大数据回答以前我们无法涉及领域的问题,可以从中获取知识和见解,定位趋势并利用这些数据来提高生产力,赢得竞争优势。伴随移动互联网、智能终端、云计算、物联网技术的发展,数据呈现爆炸式增长,数据密度空前提高,大数据时代波澜壮阔的画卷正在逐步展开转载 2015-08-15 11:16:06 · 6080 阅读 · 0 评论 -
Hadoop--06--MapReduce编程基础
. WordCount示例及MapReduce程序框架 首先通过一个简单的程序来实际运行一个MapReduce程序,然后通过这个程序我们来哦那个结一下MapReduce编程模型。下载源程序:/Files/xuqiang/WordCount.rar,将该程序打包成wordcount.jar下面的命令,随便写一个文本文件,这里是WordCountMrtrial,并上传到hdfs上,这里转载 2016-07-20 20:02:20 · 1548 阅读 · 0 评论 -
Hadoop--08--WordCount
import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.conf.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapred.*; import转载 2016-07-29 21:44:22 · 646 阅读 · 0 评论 -
Hadoop--05--运行WordCount
1、 启动Hadoop:Start-all.sh2、 创建file 文件夹,并随便写些内容Mkdir /hadoop/test.txt3、 在HDFS上创建输入文件夹目录 input :Hadoop fs –put /hadoop/test.txt/input4、 Hadoop自带的运行 wordcount例子的 jar 包:hadoop-mapreduce-e原创 2016-07-19 21:20:55 · 1345 阅读 · 0 评论 -
Hadoop--04--使用java api操作
1. 概述 2. 文件操作2.1 上传本地文件到hadoop fs2.2 在hadoop fs中新建文件,并写入2.3 删除hadoop fs上的文件2.4 读取文件3. 目录操作3.1 在hadoop fs上创建目录3.2 删除目录3.3 读取某个目录下的所有文件 4. 参考资料接代码下载 . 概述 hadoop中关于文件操作类基本转载 2016-07-19 08:49:35 · 1155 阅读 · 0 评论 -
Hadoop常用命令(三)
1,hadoop fs –fs [local | ]:声明hadoop使用的文件系统,如果不声明的话,使用当前配置文件配置的,按如下顺序查找:hadoop jar里的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-default.xml->$HADOOP_CONF_DIR下的hadoop-site.xml。使用local代表将本地文件系统作为hadoop的原创 2016-07-18 22:10:49 · 1929 阅读 · 2 评论 -
深入Hadoop HDFS(二)
1. hdfs架构简介1.1 hdfs架构挑战1.2 架构简介1.3 文件系统命名空间File System Namespace1.4 数据复制1.5 元数据持久化1.6 信息交换协议 2. hdfs数据可访问性2.1 web interface2.2 shell command. hdfs架构简介 1.1 hdfs架构挑战h转载 2016-07-18 13:18:16 · 1008 阅读 · 0 评论 -
ubuntu14.04下Hadoop2.6.0+Hive1.1.1安装
1.Hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据。其在Hadoop的架构体系中承担了一个SQL解析的过程,它提供了对外的入口来获取用户的指令然后对指令进行分析,解析出一个MapReduce程序组成可执行计划,并按照该计划生成对应的MapReduce任务提交给Hadoop集群处理,获取最终的结果。元数据——如表模式原创 2016-07-06 21:57:23 · 3539 阅读 · 0 评论 -
hive文件存储格式
hive在建表是,可以通过‘STORED AS FILE_FORMAT’ 指定存储文件格式例如:[plain] view plain copy> CREATE EXTERNAL TABLE MYTEST(num INT, name STRING) > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t转载 2016-07-16 15:54:36 · 1548 阅读 · 0 评论 -
ubuntu14.04下hadoop2.6.0安装
1. 下载ubuntu14.04 i386地址:http://old-releases.ubuntu.com/releases/14.04.1/2. 安装JDK地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html2.1.解压安装我们把JDK安装到这个路径原创 2016-07-05 20:16:28 · 1778 阅读 · 0 评论 -
Hive是什么?
Hive 定义Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在 Hadoop上的数据仓库基础构架。它提供了转载 2016-07-03 12:10:10 · 842 阅读 · 0 评论 -
Hadoop是什么?
Hadoop是什么?Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算.Hadoop框架中最核心设计就是:HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算.数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集转载 2016-07-03 12:07:46 · 747 阅读 · 0 评论 -
Hadoop--07--MapReduce高级编程
. Changing MapReduce jobs 1.1 Chaining MapReduce jobs in a sequence MapReduce程序能够执行一些复杂数据处理的工作,通常的情况下,需要将这个任务task分割成多个较小的subtask,然后每个subtask通过hadoop中的job运行完成,然后教案subtask的结果收集起来,完成这个复杂的task。转载 2016-07-21 09:29:38 · 2663 阅读 · 0 评论