博客专栏  >  云计算/大数据   >  Hadoop的讲解专栏

Hadoop的讲解专栏

介绍Hadoop,以及其中的各个组件,组件的使用,源码解读,以及和spark,storm等额外组件的融合,融会贯通

关注
222 已关注
26篇博文
  • Storm

    应用场景 1.信息流处理 Storm可用来实时处理新数据和更新数据库,兼具容错性和可扩展性。即 Storm可以用来处理源源不断流进来的消息,处理之后将结果写入到某个存储中去。2.连续计算 Storm可...

    2018-01-16 10:40
    172570
  • Mahout(聚类算法)

    应用场景 Mahout 是一个基于 Hadoop 的机器学习和数据挖掘的分布式计算框架,封装实现了大量数据挖掘经典算法,为 Hadoop 开发人员提供了数据建模的标准,从而大大降低了大数据应用中并...

    2018-01-16 10:30
    172525
  • 完全分布式Hadoop集群安装Phoenix

    应用场景 当我们按照之前的博文,安装完Hadoop分布式集群之后,再安装了Hbase,当准备通过hbase shell命令开始使用Hbase的时候,发现hbase非常的难用,都是一些scan,st...

    2017-11-29 11:51
    320759
  • 用SQuirreL工具连接phoenix

    应用场景 当Hadoop完全分布式集群搭建安装完毕后,安装了Hbase分布式非关系型数据库,但是hbase使用起来不像通常的关系型数据库,不可以用我们熟悉的sql语句来操作数据,因此我们安装了ph...

    2017-11-29 14:58
    320553
  • Sql Line操作使用Hbase

    应用场景 按照 完全分布式Hadoop集群安装Phoenix博文,安装了phoenix后,可以通过普通的SQL方式,操作HBASE,使hbase分布式非关系型数据库,更加易于用户的使用。 操作步骤...

    2017-11-29 14:14
    320809
  • 通过JDBC访问phoenix

    应用场景既然hbase支持sql语句对数据进行操作,那么我们能不能通过代码连接Hbase,通过phoenix,在代码中书写sql语句,对phoenix进行操作呢?操作方案1. 新建maven项目 ...

    2017-11-29 16:00
    321938
  • Hadoop的加速发动机Impala

    应用场景 在使用Hive的过程中,编写了HQL语句,发现HQL执行过程是非常慢的,因为hive采用的是把HQL转化成hadoop的MapReduce任务,然后编译,打包成jar包,分发到各个ser...

    2017-12-01 10:24
    319084
  • pig

    应用场景 Pig并不适合所有的数据处理任务,和MapReduce一样,它是为数据批处理而设计的,如果想执行的查询只涉及一个大型数据集的一小部分数据,Pig的实现不会很好,因为它要扫描整个数据集或其...

    2018-01-16 09:46
    172346
  • 设置Flume监听文件内容

    应用场景 按照Hadoop完全分布式安装Flume博文,测试使用了Flume监听文件夹,当文件夹中添加了文件,Flume设置会立马进行收集文件夹中的添加的文件,那么这是一种应用场景,但是如果我们想...

    2017-11-23 11:42
    321138
  • Flume OG和Flume NG的区别

    应用场景 Flume作为Hadoop中的日志采集工具,非常的好用,但是在安装Flume的时候,查阅很多资料,发现形形色色,有的说安装Flume很简单,有的说安装Flume很复杂,需要依赖zooke...

    2017-11-23 13:52
    320933
  • 分布式集群Kafka删除已经创建的topic

    应用场景 按照Kafka集群的测试和简单试用博文进行了对Kafka的使用,与topic创建,并且模拟了消息的生产者,消息的消费者进行模拟环境,验证Kafka可以执行,但是想到,建立了topic,如...

    2017-11-23 17:31
    321053
  • Sqoop从mysql抽取数据到hive中

    应用场景 当我们部署搭建完sqoop后,之前的数据都放到了mysql中,现在我们需要把mysql中的数据抽取到hive中,那通过sqoop该如何操作呢? 操作步骤1. 准备mysql上需要抽取的数...

    2017-11-15 14:09
    321364
  • hadoop完全分布式集群下安装sqoop

    应用场景 当我们按照hadoop完全分布式集群搭建博客搭建了hadoop以后,发现这是一个空的hadoop,只有YARN,MapReduce,HDFS,而这些实际上我们一般不会直接使用,而是需要另...

    2017-11-15 11:26
    320968
  • hadoop伪分布式安装部署HIVE

    应用场景 当我们按照hadoop伪分布式集群搭建博客搭建了hadoop以后,发现这是一个空的hadoop,只有YARN,MapReduce,HDFS,而这些实际上我们一般不会直接使用,而是需要另外...

    2017-11-13 16:59
    321125
  • 修改yarn监控web页面上展示的StartFime和FinishTime【GMT时间】

    应用场景当部署好hadoop集群后,搭建了YARN集群,开启了hadoop的HDFS和YARN服务,访问主节点IP和8088端口的YARN监控界面,发现这个All Applications界面中的开始...

    2017-11-20 14:48
    321536
  • 分布式计算引擎MapReduce

    应用场景 当数据量大到一定程度,传统的技术无法进行解决的时候,那么需要采用分布式计算引擎MapReduce来尝试解决了! 操作步骤 1. 架构图 Hadoop是由Apac...

    2018-01-10 14:59
    172514
  • 分布式文件系统HDFS

    应用场景 当数据量达到PB,ZB级别,或者传统关系型数据库遇到难题的时候,那么采用HDFS来替代是最好不过的工具了。 操作步骤 1. 架构图 Hadoop是由Apache...

    2018-01-10 14:54
    172505
  • Hadoop2.6.0伪分布式集群搭建

    应用场景 在研究hadoop的过程中,当然需要部署hadoop集群,如果想要在本地简单试用hadoop,并且没有那么多服务器供你使用,那么伪分布式hadoop环境绝对是你最好的选择。 操作步骤1....

    2017-11-10 17:48
    321465
  • eclipse配置连接Hadoop

    1. eclipse配置连接hadoop 将hadoop的plugins包,拷贝到eclipse的plugins目录下。管理员启动eclipse 在eclipse的windows下...

    2018-02-07 00:13
    94925
  • Kafka集群的测试和简单试用

    应用场景 按照Hadoop完全分布式安装Kafka博文搭建完Kafka2.11集群后,需要简单试用,来体会Kafka的工作原理,以及如何进行使用,感受分布式消息队列系统。 操作步骤思路:搭建了三个...

    2017-11-23 16:34
    321157

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部