hadoop
Inequality-Sign
这个作者很懒,什么都没留下…
展开
-
HDFS Erasure Coding
为什么要使用HDFS Erasure Coding多副本的存储是昂贵的 - HDFS中的默认3x复制方案在存储空间和其他资源(例如,网络带宽)中具有200%的开销。 然而,对于具有相对较低I / O活动的热和冷数据集,在正常操作期间很少访问附加的块副本,但仍然会消耗和第一个副本相同的资源量因此,自然的改进是使用擦除编码(EC)代替复制,这提供了相同级别的容错能力,而且存储空间更少。 在典型的擦除编翻译 2017-10-19 15:46:31 · 700 阅读 · 0 评论 -
spark函数aggregate 简单实例理解
首先,Spark文档中aggregate函数定义如下def aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U这是一个柯里化函数,第一个参数列表中传一个初始化值,柯里化的目的是让后一个参数列表中的类型可以由前一个参数列表中参数类型进行推演得到...原创 2018-02-23 06:08:04 · 581 阅读 · 0 评论 -
Storm集群安装
vim storm.yaml#指定storm使用的zk集群storm.zookeeper.servers: - "master" - "work1" - "work2"#指定storm集群中的nimbus节点所在的服务器nimbus.host: "master"#指定nimbus启动JVM最大可用内存大小nimbus.childopts: "-Xmx1024m原创 2017-12-07 16:57:42 · 202 阅读 · 0 评论 -
flume文件下沉 kafka相关命令
1.flume配置文件kfk.conf# Describe/configure the sourcea1.sources.r1.type = execa1.sources.r1.command = tail -F /home/hadoop/tmp/test.txt# Describe the sinka1.sinks.k1.type = org.apache.flume.sink.kafka.原创 2017-12-19 15:25:49 · 889 阅读 · 2 评论 -
mapReduce使用分布式缓存机制
由于有时候reduce value值数量的不确定性可能会造成数据倾斜,可以考虑使用分布式缓存机制,仅用map进行输出。mapreduce中具体的函数为job.addCacheFile(new URI("file:///Users/inequality/tmp/input/join/pro.txt"));此函数可以在map运行之前在工作目录加入缓存文件,供map使用具体程序代码:实现采购信息和商品信息原创 2017-11-23 18:15:01 · 1062 阅读 · 1 评论 -
MapReduce分析共同好友
两次使用mapreduce 输入文件: A:B,C,D,F,E,O B:A,C,E,K C:F,A,D,I D:A,E,F,L E:B,C,D,M,L F:A,B,C,D,E,O,M G:A,C,D,E,F H:A,C,D,E,O I:A,O J:B,O K:A,C,D L:D,E,F M:E,F,G O:A,H,I,J最终需求结果如:A–B: C E原创 2017-11-23 18:04:47 · 659 阅读 · 0 评论 -
Hbase集群安装配置
hbase-env.sh 我就配置了如下参数export JAVA_HOME=/usr/jdkexport JAVA_CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jarexport HBASE_OPTS="-XX:+UseConcMarkSweepGC"# Tell HBase whether it should manage原创 2017-12-03 00:09:53 · 181 阅读 · 0 评论 -
storm ack机制
1、先看一下数学中的异或 异或xor是一个数学运算符。它应用于逻辑运算。异或符号为“^”。 异或也叫半加运算,其运算法则相当于不带进位的二进制加法:二进制下用1表示真,0表示假,则异或的运算法则为:0异或0=0,1异或0=1,0异或1=1,1异或1=0(同为0,异为1), 既然相同的对象XOR操作,结果是0,那么有这样一个公式, A xor B…xor B xor A = 0,其中每转载 2017-12-09 15:37:39 · 237 阅读 · 0 评论 -
maven构建CDH开发环境
1.配置远程仓库<repositories> <repository> <id>cloudera-releases</id> <url>https://repository.cloudera.com/artifactory/cloudera-repos</url> <releases> <enabled>true</en转载 2017-11-16 18:23:52 · 475 阅读 · 0 评论 -
mapreduce 根据value值进行排序
目前所知有两种方法1.map阶段不做改变,在reduce阶段对map的输出进行缓存,重写cleanup方法,在其中对缓存的数据进行排序输出。 缺点:如果数据量过大,将消耗大量的内存2.进行两个Mapreduce操作 将第一个次Mapreduce的输出value作为第二次map的key ,在第二次reduce再还原成原来的key value形式 如下为按照手机号产生流量的value进行排序的j原创 2017-11-20 13:00:45 · 8422 阅读 · 2 评论 -
zookeeper javaapi 的使用测试
http://search.maven.org/中查询到zookeeper的依赖在pom.xml中加入 <dependency> <groupId>org.apache.zookeeper</groupId> <artifactId>zookeeper</artifactId> <version>3.4.5</version> </dependency>创原创 2017-11-04 00:50:50 · 293 阅读 · 0 评论 -
zookeeper 集群安装
zookeeper有这样一个特性:集群中只要有过半的机器是正常工作的,那么整个集群对外就是可用的也就是说zookeeper需要安装在奇数台机器上(一台和两台效果是一样的)安装步骤 1.解压zookeeper2.配置文件(/conf/zoo.cfg) cp zoo_sample.cfg zoo.cfgvi zoo.cfg设置数据存储路径 dataDir=/home/hadoop/bda/tmp/原创 2017-11-03 16:07:42 · 178 阅读 · 0 评论 -
HDFS-数据块
1.hdfs 数据块默认为128m 目的是减少寻址开销,使得寻址时间远小于从磁盘传输的时间2.带来的好处: (1)一个文件的大小可以大于网络中任意一个磁盘的容量 (2)使用抽象块而非整个文件作为存储单元,大大简化了存储子系统的设计: 由于块的大小是固定的,因此计算单个磁盘能存储多个块就相对容易。 消除了对元数据的顾虑(块只是要存储的大块数据,而文件的元数据,如权限信息,并不需要与块一起存储原创 2017-10-25 20:55:09 · 493 阅读 · 0 评论 -
手动编译Java hdfs访问程序
由于服务器在云端,vpn不好搭建,本地无法调试程序,只要本地写好代码传到服务器去编译运行了. 不知道有没有好的远程访问hdfs的访问,知道的大神希望能指点一二.1.本地写好java代码传到服务器~/tmp/lib/java_example目录下import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileS原创 2017-11-01 19:58:09 · 271 阅读 · 0 评论 -
hadoop简单集群搭建
之前已经实现单台的伪分布集群。现在通过四台服务器来实现集群分布式1.ssh-keygen -t rsa 2.使用ssh-copy-id -i ~/.ssh/id_dsa.pub hadoopX分发到各个主机上 3.配置hadoop-env.sh export JAVA_HOME = 4.配置core-site.xml<property> <name>fs.defaultFS</n原创 2017-10-24 16:08:55 · 294 阅读 · 0 评论 -
hadoop伪分布环境搭建
1.配置java环境变量 vi /etc/hadoop/hadoop-env.sh2.配置core-site.xmletc/hadoop/core-site.xml:<property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value></property>3.配置hdfs_site.xml etc/原创 2017-10-22 13:01:43 · 351 阅读 · 0 评论 -
介绍RAID 6阵列基础中擦除码的工作原理及作用
你将学到的:RAID 6正在迅速成为现代存储系统的一个标准部件,几乎每个大中型阵列都增加了这个功能。我们来告诉你为什么RAID 6中的擦除码使得当今的高容量磁盘可以被使用,而且使其不用担心无法恢复读错误引起数据丢失。 数据存储行业依靠一些基本的技术已经超过30年了,而这里面最重要的就是独立磁盘冗余阵列(RAID)的概念。然而传统RAID所依托的数学原理正在被替换,以应对磁盘容量的增加和更高灵活性的转载 2017-10-19 15:47:55 · 890 阅读 · 0 评论 -
zookeeper伪分布安装配置
之前写过完全分布式的配置,但伪分布更适合调试使用1.配置三个配置文件(均在conf目录下)将模板复制三份 cp zoo_sample.cfg zk1.cfg cp zoo_sample.cfg zk2.cfg cp zoo_sample.cfg zk3.cfg分别做一些改动 zk1:dataDir=/home/hadoop/bda/tmp/zk1# the port at...原创 2018-04-14 22:15:01 · 566 阅读 · 0 评论