博客专栏  >  云计算/大数据   >  Hadoop生态

Hadoop生态

由浅入深,专注于研究Hadoop生态系统的每一项技术。。。

关注
44 已关注
180篇博文
  • Hadoop之——Hadoop机架感知策略与自定义机架感知实现

    转载请注明出处:https://blog.csdn.net/l1028386804/article/details/81150863 一、Hadoop机架感知策略 副本节点的选择(机架感知) 1...

    2018-07-22 00:22
    64
  • Hbase之——布隆过滤器BloomFilter

    1、主要功能 提高随机读的性能 2、存储开销 bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。Bloomfilter是一个列族(c...

    2018-06-24 19:59
    77
  • HBase之—— Snapshot(快照)

    HBase在0.94之后提供了Snapshot功能,一个snapshot其实就是一组metadata信息的集合,它可以将表恢复到以前的一个状态。snapshot并不是一份拷贝,它只是一个文件名的列表,...

    2018-06-24 19:46
    56
  • Spark之——基于MLlib的机器学习

    1. 简介MLlib 是Spark 中提供机器学习函数的库。它是专为在集群上并行运行的情况而设计的。MLlib 中包含许多机器学习算法,可以在Spark 支持的所有编程语言中使用,由于Spark基于内...

    2018-06-21 22:29
    70
  • Hadoop-2.7.1+Zookeeper-3.4.8+HBase-1.2.1+Hive-2.0.0完全分布式集群

    网上有的hadoop,zookeeper,hbase,apache-hive相关文档,具体大家可以百度具体了解,本文不多做介绍,本文从最基本的环境搭建入手,纯环境搭建。搭建次环境唯一要考虑就是软件相互...

    2018-06-20 21:14
    108
  • HBase之——MapReduce构建HBase二级索引

    import java.io.IOException; import java.util.HashMap; import java.util.Map; import java.util.Set; ...

    2018-06-20 21:03
    79
  • Spark之——Spark Submit提交应用程序

    本部分来源,也可以到spark官网查看英文版。 spark-submit 是在spark安装目录中bin目录下的一个shell脚本文件,用于在集群中启动应用程序(如*.py脚本);对于spark支持的...

    2018-06-19 21:44
    198
  • HBase之——集群数据手动迁移方案

    1、从源HBase集群中复制出HBase数据库到本地目录hadoop fs -get2、目标HBase导入hadoop fs -put3、修复.META.表hbase hbck -fixMeta4、重...

    2018-06-19 21:33
    87
  • Spark之——使用spark-submit部署应用(基于Spark 1.X)

    例1: 提交 Python 应用bin/spark-submit my_script.py如果在调用 spark-submit 时除了脚本或 JAR 包的名字之外没有别的参数,那么这个 Spark 程...

    2018-06-19 19:40
    69
  • HBase之——协处理编程

    为什么引入协处理器?HBase作为列数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本(<0.92)的Hbase中,统计数据表的总行...

    2018-06-18 23:10
    108
  • Hive之——Hive SQL优化

    一、Hive优化目标在有限的资源下,提高执行效率二、Hive执行HQL——> Job——> Map/Reduce三、执行计划查看执行计划explain [extended]...

    2018-06-08 23:45
    138
  • Hive之——自定义函数UDAF

    关于Hive自定义函数UDF的相关信息,请参考博文《Hive之——自定义函数》用户自定义聚合函数,用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题:UDF也可...

    2018-06-06 22:51
    104
  • Hive之——高级查询

    一、查询操作group by、 order by、 join、 distribute by、 sort by、 cluster by、 union allorder by: 全局排序sort by:每...

    2018-06-03 20:35
    220
  • Hive之——表属性操作

    1、修改表名alter table table_name rename to new_table_name;2、修改列表alter table table_name change column c1 ...

    2018-06-02 20:08
    128
  • Hive之——数据导出

    一、导出的方式1、Hadoop命令方式get    hadoop fs -get hdfs://liuyazhuang121:9000/user/hive/warehouse/lyz.db/test_...

    2018-06-02 19:59
    132
  • Hive之——数据操作

    一、Hive基本使用——查询基本语法select [all | distinct] select_expr, select_expr, ... from tablename [where where_...

    2018-06-02 19:55
    105
  • Hive之——Hive表操作

    一、Hive基本使用——数据类型1、基本数据类型tinyint, smallint, int, bigint, boolean, float, double, string, binary, time...

    2018-06-02 14:14
    139
  • 大数据杂谈之——HIVE和HBASE区别

    1. 两者分别是什么?    Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被...

    2018-06-01 21:04
    118
  • Spark之——Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程

    一、修改hosts文件在主节点,就是第一台主机的命令行下;vim /etc/hosts我的是三台云主机:在原文件的基础上加上;ip1 master worker0 namenode ip2 worke...

    2018-05-30 22:11
    153
  • Hive之——权限管理(授权)

    转载请注明出处:https://blog.csdn.net/l1028386804/article/details/80216911   HIVE授权管理,类似于操作系统权限可以授予给不同的主题,如用...

    2018-05-06 18:49
    454

SpringBoot
1421999
MongoDB
293018
算法
11376
Android
80278810
Python
5566086
搜索优化
2533192
Nginx
3089001
Dubbo
2079009
JMS
1316495
Netty
13056
Redis
23132090
Memcached
1163731
设计模式
2256858
Mycat
2042157
Web前端
23107263
Linux
96300843
JVM
1860698
J2EE
83353774
Java
187712436
MySQL
136386152

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部