hadoop
京城莹莹
你要悄悄拔尖,然后惊艳所有人
展开
-
通过shell脚本定时上传日志文件到hdfs
#!/bin/bash#set java envexport JAVA_HOME=/home/hadoop/apps/jdk1.7.0_80export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/libexport PATH=${JAVA_HOME}/bin:$PATH#set ...原创 2020-02-08 17:39:55 · 503 阅读 · 0 评论 -
Hdfs
1介绍设计思想是分而治之,将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析。 在大数据系统中的应用是为各类分布式运算框架提供数据存储服务。2.特性hdfs中的文件在物理上是分块存储(block),块的大小可以通过配置参数(dfs.blocksize)来规定,默认大小在hadoop2.x版本中是128M,老版本是64M.hdfs文件系统会...原创 2020-02-08 17:38:04 · 442 阅读 · 0 评论 -
Hadoop(三)---linux编译hadoop2.x
一、准备的资料· 64位linux系统。我使用的是 CentOS· JDK 1.7+。注:使用1.7即可,如果是1.8则会编译失败,1.6没有试过,看网上大牛的帖子说也能过· maven-3.2.5。 这是apache的一个产品,hadoop的编译要就是3.0以上· protobuf 注:谷歌的产品,最好是提前百度准备...原创 2020-02-08 17:33:58 · 166 阅读 · 0 评论 -
Hadoop(二)--aliyun下安装hadoop集群2.x
0.服务器节点规划hdp01 nn dn nm snn rmhdp02 dn nmhdp03 dn nm1.修改主机名vi /etc/sysconfig/network在NETWORKING_IPV6=noPEERNTP=no后追加一行HOSTNAME=hdp03reboot 之后主机名并没有修改,若是centos7以上的系统则继续使用以下命令host...原创 2020-02-08 17:32:15 · 212 阅读 · 0 评论 -
Hadoop(一)
1.介绍HADOOP是apache旗下的一套开源软件平台HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理HADOOP的核心组件有 : HDFS(分布式文件系统) YARN(运算资源调度系统) MAPREDUCE(分布式运算编程框架)2.产生背景 HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎...原创 2020-02-08 17:30:36 · 124 阅读 · 0 评论