hadoop
红豆和绿豆
这个作者很懒,什么都没留下…
展开
-
如何实现有多少人购买了此商品
(1)监听下单的消息,跟对某种类型的订单进行监听,然后清洗消息数据,把某些信息放到hbase中,可以进行业务统计,把所有的记录存储起来(2)业务上在根据hbase中存储的数据进行读取,展示。比如用户收藏某个商品,收藏某个门店,都可以使用hbase进行存储。(3)针对订单多种维度的筛选,也是可以选择使用hbase进行数据的筛选(4)针对内容的存储,创建者对应多个创作的内容 都是可以使用hbase进行存储...原创 2022-01-09 18:05:06 · 661 阅读 · 0 评论 -
zookeeper学习
下载安装单机zookeeper的serverzookeeper的操作zookeeper的数据结构服务端常用命令客户端常用命令临时节点,客户端关闭,服务端创建的节点则会删除不能重复创建节点不能删除带子节点的ZNodejavaAPI操作Zookeeper的节点操作curator的增删改查连接基本操作package curator;import org.apache.curator....原创 2021-08-03 21:14:58 · 408 阅读 · 1 评论 -
Hadoop2.0的yarn 的基本的介绍
YARN (MRv2) 简介为了实现一个 Hadoop 集群的集群共享、可伸缩性和可靠性。设计人员采用了一种分层的集群框架方法。具体来讲,特定于 MapReduce 的功能已替换为一组新的守护程序,将该框架向新的处理模型开放。图 2. YARN 的新架构回想一下,由于限制了扩展以及网络开销所导致的某些故障模式,MRv1 JobTracker 和 TaskTracker 方法曾是原创 2016-01-19 15:28:02 · 581 阅读 · 0 评论 -
通过使用API来操作HDFS
整体的流程就是:public static final String HDFS_PATH = "hdfs://masterIP:9000/";Configuration config=new Configuration();FileSystem fs=FileSystem.get(new URI(HDFS_PATH ),config); //FIleSystem类是操作文件的主要的原创 2016-01-14 11:59:38 · 473 阅读 · 0 评论 -
MapReduce的细节的介绍
详细介绍了从Map输出之前,每一次Map的输出都输出到缓冲区,Sort,Combiner,压缩,存储在本地的磁盘上,通过心跳的机制告诉TaskTracker任务完成,等待Reducer的线程Copy数据,MapReduce中的Shuffle和Sort分析MapReduce 是现今一个非常流行的分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google 公司,转载 2016-01-14 16:23:36 · 286 阅读 · 0 评论 -
Hadoop关于处理大量小文件的问题和解决方法
小文件指的是那些size比HDFS的block size(默认64M)小的多的文件。如果在HDFS中存储小文件,那么在HDFS中肯定会含有许许多多这样的小文件(不然就不会用hadoop了)。而HDFS的问题在于无法很有效的处理大量小文件。任何一个文件,目录和block,在HDFS中都会被表示为一个object存储在namenode的内存中,没一个object占用150 bytes的内存空间转载 2016-01-14 18:26:48 · 556 阅读 · 0 评论 -
Hadoop的调度器总结
http://dongxicheng.org/mapreduce/hadoop-schedulers/随着MapReduce的流行,其开源实现Hadoop也变得越来越受推崇。在Hadoop系统中,有一个组件非常重要,那就是调度器,它的作用是将系统中空闲的资源按一定策略分配给作业。在Hadoop中,调度器是一个可插拔的模块,用户可以根据自己的实际应用要求设计调度器。Hadoop中常见的调度器转载 2016-01-14 18:53:41 · 272 阅读 · 0 评论 -
Hadoop-0.20.2公平调度器算法解析
1. 目的本文描述了hadoop中的公平调度的实现算法,公平调度器是由facebook贡献的,适合于多用户共享集群的环境的调度器,其吞吐率高于FIFO,论文参见参考资料[1]。本文分析的Hadoop版本是0.20.2,在新版本(0.21.0)中,公平调度算法已经有了改进与增强。本文组织结构如下:1)目的 2)公平调度介绍 3)公平调度算法分析 4)新版hadoop中公平调度转载 2016-01-14 19:13:48 · 249 阅读 · 0 评论 -
自己对整体的MapReduce的深刻理解
将一个192M的文件分成三个Split数据块,通过RecordReader读取数据块中的数据,形成Key-value对,然后作为Map的输入,Map开始执行相应的Map任务。接下来就是Map和Reduce的过程原创 2016-01-14 19:50:43 · 260 阅读 · 0 评论 -
WordCount的MapReduce的实现
package bigdatabasealgorithm;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apach原创 2016-01-14 20:19:28 · 468 阅读 · 0 评论 -
解析如何读取文件形成InputSplit
1、首先简单的知道InputFormat是将文件以什么样的形式加在到内存中?hadoop内置了很多的InputFormat的具体实现的类例如抽象类FileInputFormat,DBInputFormat等等常用的一般都是FileInputFormat的子类TextInputFormat 键:当前行的偏移地址 值:当前的行 使用 LineRecordReader来读取原创 2016-01-14 20:41:45 · 668 阅读 · 0 评论 -
HDFS之Qurom Journal Manager(QJM)实现机制分析
http://www.tuicool.com/articles/eIBB3a1.前言1.1背景 自从hadoop2版本开始,社区引入了NameNode高可用方案。NameNode主从节点间需要同步操作日志来达到主从节点元数据一致。最初业界均通过NFS来实现日志同步,大家之所以选择NFS,一方面因为可以很方便地实现数据共享,另外一方面因为NFS已经发展20多年,已经转载 2016-01-14 10:54:09 · 337 阅读 · 0 评论 -
HDFS HA与QJM(Quorum Journal Manager)介绍及官网内容整理
http://blog.csdn.net/stark_summer/article/details/44219095问题导读1.HDFS HA与QJM解决了什么问题?2.HDFS HA与QJM区别是什么?3.在HA(两个namenode)架构下,如何访问hdfs文件?【使用QJM构建HDFS HA架构(2.2+)】 本文主要介绍HD转载 2016-01-14 10:42:46 · 556 阅读 · 0 评论 -
使用客户端的命令操作HDFS中的数据
一、这是一些基本的操作命令1、首先在hdfs创建一个测试的目录hadoop fs -mkdir /test2、将本地的文件上传到 /test目录下hadoop fs -put /usr/local/yy/hello /test3、查看hdfs文件的内容hadoop fs -cat /test/hellohadoop fs -text /test/hello4、查原创 2016-01-14 08:50:21 · 673 阅读 · 0 评论 -
Hadoop 的常用组件一览
Apache Hadoop 项目有两个核心组件,被称为 Hadoop 分布式文件系统 (Hadoop Distributed File System, HDFS) 的文件存储,以及被称为 MapReduce 的编程框架。有一些支持项目充分利用了 HDFS 和 MapReduce。HDFS: 如果您希望有 4000 多台电脑处理您的数据,那么最好将您的数据分发给 4000 多台电脑。HDFS转载 2016-01-19 15:34:05 · 909 阅读 · 0 评论 -
使用MapReduce实现k-means算法
主要的算法流程就是:(1)随机选择k个点,放到磁盘上供个个点进行共享(2)每一个map读取中心点,每一条及记录找到最近的Cluster,发出的记录是,Reduce的功能就是重新计算新的k均值,b原创 2016-01-21 10:58:43 · 6181 阅读 · 0 评论 -
使用MapReduce实现knn算法
算法的流程(1)首先将训练集以共享文件的方式分发到各个map节点(2)每一个map节点主要> LongWritable 主要就是文件的偏移地址,保证唯一。ListWritable主要就是最近的类别。Reduce节点主要计算出,每一个要预测节点的类别。package knn;public class Distance {public static double E原创 2016-01-21 13:49:12 · 4147 阅读 · 3 评论 -
使用MapReduce实现Bayes算法
代码如下:NBayes.conf4 cl1 cl2 cl3 cl43 p1 12 p2 16 p3 17NBayes.traincl1 5 6 7cl2 3 8 4cl1 2 5 2cl3 7 8 7cl4 3 8 2cl4 9 2 7cl2 1 8 5cl5 2 9 4cl3 10 3 4cl1 4 5 6cl3 4 6 7原创 2016-01-22 10:09:18 · 1510 阅读 · 1 评论 -
MapReduce的矩阵乘法的原理
下面这个矩阵乘法,主要使用了二个MapReduce程序来完成。原创 2016-01-05 20:34:09 · 667 阅读 · 0 评论 -
大数据计算模式以及对应的典型系统
大数据查询与分析计算 HBase,Hive, Cassandra, Premel, Impala, Shark, Hana, Redis批处理计算 MapReduce,Spark流式计算 Scribe ,Flume,Storm,S4,SparkStreaming迭代计算 HaLoop ,iMapReduce,Twister,Spark图计算 Pre原创 2016-01-13 13:04:38 · 2204 阅读 · 0 评论 -
spark ssh配置
配置机器 hostnamevi /etc/hostname 增加S1PA11再执行 # hostname S1PA11 ---修改成功打开hosts文件 并修改关联关系:127.0.0.1 localhost.localdomain localhost::1 localhost6.localdomain6 loca转载 2016-01-13 17:28:42 · 348 阅读 · 0 评论 -
hadoop2.6.0版本集群环境搭建
一、环境说明1、机器:一台物理机 和一台虚拟机2、linux版本:[spark@S1PA11 ~]$ cat /etc/issueRed Hat Enterprise Linux Server release 5.4 (Tikanga)3、JDK: [spark@S1PA11 ~]$ java -versionjava version "1.6.0_27"J转载 2016-01-13 19:30:29 · 345 阅读 · 0 评论 -
HDFS的介绍
1、HDFS的6大特性(1)分布式存储数据(2)高并发访问(3)高可靠性,安全性(4)文件顺序访问(5)数据块存储数据(6)一次写入,多次读取简单的模型,HDFS一般不支持修改,但是支持追加2、HDFS的工作的基本框架与几个重要的概念NameNode的作用:(1)主要是存储于管理整个分布式文件系统目录结构(2)接收用户的请求,并且快速的响应(3)原创 2016-01-13 21:31:47 · 410 阅读 · 0 评论 -
[Hadoop源码详解]之一MapReduce篇之InputFormat
1. 概述我们在设置MapReduce输入格式的时候,会调用这样一条语句:1job.setInputFormatClass(KeyValueTextInputFormat.class);这条语句保证了输入文件会按照我们预设的格式被读取。KeyValueTextInputFormat即为我们设定的数据读取转载 2016-01-14 21:34:39 · 428 阅读 · 0 评论 -
MapReduce中的想详细的细节
1、当Map读取RecordReader的key--value之后,就会将数据存放在缓冲区中,并进行按照可以的排序。默认的排序是IntWritable 按照键的从小到大排序。我们也可以设定按照可以的自定义排序。2、Combiner好处?1.Mapper端归约后数据变少,传输时间变短;Reducer端接收数据少了,运行时间短了。job的整体时间运行也变短了。 * 什么情况下使用Combi原创 2016-01-15 10:04:54 · 412 阅读 · 0 评论 -
Hbase的集群搭建
1.上传hbase安装包2.解压3.配置hbase集群,要修改3个文件(首先zk集群已经安装好了) 注意:要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env.sh export JAVA_HOME=/usr/local/java/jdk1.7.0_55原创 2017-02-27 20:51:16 · 275 阅读 · 0 评论 -
storm的安装
1.修改主机名:vim /etc/sysconfig/networkNETWORKING=yesHOSTNAME=MASTER2.修改IP:vim /etc/sysconfig/network-scripts/ifcfg-eth0BOOTPROTO="static"HWADDR="00:0C:29:FC:62:B6"IPV6INIT="yes"NM_CONT原创 2017-02-28 12:11:13 · 284 阅读 · 0 评论 -
storm工作原理的简单介绍
首先创建一个一个storm的应用public class TopoMain {//创建日志 private static final Log log = LogFactory.getLog(TopoMain.class); /** * @param args */ public static void main(String[]原创 2017-02-28 14:38:37 · 502 阅读 · 0 评论 -
Storm的生命周期
生命周期主要是SPOUT和Bolt这二个组件的生命周期Spout组件涉及到的方法有:declareOutputFields()open()active()nextTuple()disactive()Bolt组件涉及到的方法有declareOutputFileds()prepare()execute()什么时候执行?在客户端将jar包提交到集群上的时候原创 2017-02-28 15:28:36 · 676 阅读 · 0 评论 -
storm保证消息可靠性
public class TopoMain { public static void main(String[] args) { TopologyBuilder builder = new TopologyBuilder(); builder.setSpout("spout", new MessageSpout()); b原创 2017-02-28 16:25:55 · 252 阅读 · 0 评论 -
利用curator实现的zookeeper分布式锁服务
import Java.util.concurrent.CountDownLatch;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;import java.util.concurrent.TimeUnit;import com.netflix.curator.Ret转载 2017-03-03 09:53:33 · 237 阅读 · 0 评论 -
Solr与HBase架构设计
摘要:本篇是本人在做一个大数据项目时,对于系统架构的一点总结,如何在保证存储量的情况下,又能保证数据的检索速度。前提: Solr、SolrCloud提供了一整套的数据检索方案,HBase提供了完善的大数据存储机制。需求: 1、对于添加到HBase中的结构化数据,能够检索出来。 2、数据量较大,达到10亿,100亿数据量。转载 2017-03-03 10:14:13 · 493 阅读 · 0 评论 -
storm学习笔记
http://blog.csdn.net/sheen1991/article/details/51745673Storm学习笔记一、简介本文使用的Storm版本为1.0.1Storm是一个免费开源的分布式实时计算系统,它使得可靠地处理无限的数据流更加容易,可以实时的处理Hadoop的批量任务。Storm简单易用,且支持各种主流的程序语言。St转载 2017-03-03 11:02:33 · 651 阅读 · 0 评论 -
Storm的重要概念
Storm中一些重要的概念:Spout(消息源) Bolt(消息处理者) Stream grouping(数据的分发方式)Topology(拓扑) Worker(工作进程) Task(执行具体逻辑的任务)Executor(执行Task的线程)Configuration(配置)编程模型:物理模型:worker进程:一转载 2017-02-28 10:38:19 · 326 阅读 · 0 评论 -
Storm实战之WordCount
在storm环境部署完毕,并正确启动之后,现在就可以真正进入storm开发了,按照惯例,以wordcount作为开始。这个例子很简单,核心组件包括:一个spout,两个bolt,一个Topology。spout从一个路径读取文件,然后readLine,向bolt发射,一个文件处理完毕后,重命名,以不再重复处理。第一个bolt将从spout接收到的字符串按空格split,产生word,发转载 2017-02-28 10:18:38 · 640 阅读 · 0 评论 -
如何快速搭建HBase结群
网址保留:Build and install Ambari 2.2.2 from Source原创 2016-08-16 15:24:32 · 472 阅读 · 0 评论 -
hadoop2.4伪分布的搭建
1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip 设置网段:192.168.8.0 子网掩码:255.255.255.0 -> apply -> ok 回到windows --> 打开网络和共享中心 -> 更改适配器设置 -> 右键VMne原创 2017-02-27 19:48:01 · 230 阅读 · 0 评论 -
hadoop2.4的HA集群搭建
1.修改Linux主机名 vi /etc/sysconfig/neteork2.修改IP vi /etc/sysconfig/network-scripts/ifcfg-eth03.修改主机名和IP的映射关系 vi /etc/hosts你们公司是租用的服务器或是使用的云主机(如华为用主机、阿里云主机等)/etc/hosts里面要配置的是内网IP地址和主机名的映射关系 4.关闭原创 2017-02-27 20:06:05 · 299 阅读 · 0 评论 -
zookeeper分布式的搭建
zookeeper的默认配置文件为zookeeper/conf/zoo_sample.cfg,需要将其修改为zoo.cfg。其中各配置项的含义,解释如下:1.tickTime:CS通信心跳时间Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔,也就是每个 tickTime 时间就会发送一个心跳。tickTime以毫秒为单位。tickTime=2000 2原创 2017-02-27 20:19:41 · 263 阅读 · 0 评论 -
zookeeper的应用场景
ZooKeeper典型应用场景一览数据发布与订阅(配置中心) 发布与订阅模型,即所谓的配置中心,顾名思义就是发布者将数据发布到ZK节点上,供订阅者动态获取数据,实现配置信息的集中式管理和动态更新。例如全局的配置信息,服务式服务框架的服务地址列表等就非常适合使用。· 应用中用到的一些配置信息放到ZK上进行集中管理。这类场景通常是这样:应用在原创 2017-02-27 20:45:25 · 289 阅读 · 0 评论