博客专栏  >  云计算/大数据   >  Hadoop生态

Hadoop生态

由浅入深,专注于研究Hadoop生态系统的每一项技术。。。

关注
52 已关注
182篇博文
  • Sqoop之——Sqoop 1.4.7 Java 开发

    Java 1.8 +Sqoop 1.4.7 本文主要是备注,最近在做这方面的工作,发现网上的文档比较少,mark下。 Maven 引用 数据库连接的Jar包 common-lang3 avr...

    2018-09-12 23:27
    163
  • Sqoop之——Error: Could not find or load main class 解决方案

    转载请注明出处:https://blog.csdn.net/l1028386804/article/details/82669968 废话不多说,到链接https://download.csdn.n...

    2018-09-12 22:56
    141
  • Hadoop之——Hadoop机架感知策略与自定义机架感知实现

    转载请注明出处:https://blog.csdn.net/l1028386804/article/details/81150863 一、Hadoop机架感知策略 副本节点的选择(机架感知) 1...

    2018-07-22 00:22
    188
  • Hbase之——布隆过滤器BloomFilter

    1、主要功能 提高随机读的性能 2、存储开销 bloom filter的数据存在StoreFile的meta中,一旦写入无法更新,因为StoreFile是不可变的。Bloomfilter是一个列族(c...

    2018-06-24 19:59
    108
  • HBase之—— Snapshot(快照)

    HBase在0.94之后提供了Snapshot功能,一个snapshot其实就是一组metadata信息的集合,它可以将表恢复到以前的一个状态。snapshot并不是一份拷贝,它只是一个文件名的列表,...

    2018-06-24 19:46
    98
  • Spark之——基于MLlib的机器学习

    1. 简介MLlib 是Spark 中提供机器学习函数的库。它是专为在集群上并行运行的情况而设计的。MLlib 中包含许多机器学习算法,可以在Spark 支持的所有编程语言中使用,由于Spark基于内...

    2018-06-21 22:29
    129
  • Hadoop-2.7.1+Zookeeper-3.4.8+HBase-1.2.1+Hive-2.0.0完全分布式集群

    网上有的hadoop,zookeeper,hbase,apache-hive相关文档,具体大家可以百度具体了解,本文不多做介绍,本文从最基本的环境搭建入手,纯环境搭建。搭建次环境唯一要考虑就是软件相互...

    2018-06-20 21:14
    171
  • HBase之——MapReduce构建HBase二级索引

    import java.io.IOException; import java.util.HashMap; import java.util.Map; import java.util.Set; ...

    2018-06-20 21:03
    124
  • Spark之——Spark Submit提交应用程序

    本部分来源,也可以到spark官网查看英文版。 spark-submit 是在spark安装目录中bin目录下的一个shell脚本文件,用于在集群中启动应用程序(如*.py脚本);对于spark支持的...

    2018-06-19 21:44
    378
  • HBase之——集群数据手动迁移方案

    1、从源HBase集群中复制出HBase数据库到本地目录hadoop fs -get2、目标HBase导入hadoop fs -put3、修复.META.表hbase hbck -fixMeta4、重...

    2018-06-19 21:33
    142
  • Spark之——使用spark-submit部署应用(基于Spark 1.X)

    例1: 提交 Python 应用bin/spark-submit my_script.py如果在调用 spark-submit 时除了脚本或 JAR 包的名字之外没有别的参数,那么这个 Spark 程...

    2018-06-19 19:40
    84
  • HBase之——协处理编程

    为什么引入协处理器?HBase作为列数据库最经常被人诟病的特性包括:无法轻易建立“二级索引”,难以执行求和、计数、排序等操作。比如,在旧版本(<0.92)的Hbase中,统计数据表的总行...

    2018-06-18 23:10
    144
  • Hive之——Hive SQL优化

    一、Hive优化目标在有限的资源下,提高执行效率二、Hive执行HQL——> Job——> Map/Reduce三、执行计划查看执行计划explain [extended]...

    2018-06-08 23:45
    492
  • Hive之——自定义函数UDAF

    关于Hive自定义函数UDF的相关信息,请参考博文《Hive之——自定义函数》用户自定义聚合函数,用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题:UDF也可...

    2018-06-06 22:51
    241
  • Hive之——高级查询

    一、查询操作group by、 order by、 join、 distribute by、 sort by、 cluster by、 union allorder by: 全局排序sort by:每...

    2018-06-03 20:35
    308
  • Hive之——表属性操作

    1、修改表名alter table table_name rename to new_table_name;2、修改列表alter table table_name change column c1 ...

    2018-06-02 20:08
    180
  • Hive之——数据导出

    一、导出的方式1、Hadoop命令方式get    hadoop fs -get hdfs://liuyazhuang121:9000/user/hive/warehouse/lyz.db/test_...

    2018-06-02 19:59
    311
  • Hive之——数据操作

    一、Hive基本使用——查询基本语法select [all | distinct] select_expr, select_expr, ... from tablename [where where_...

    2018-06-02 19:55
    135
  • Hive之——Hive表操作

    一、Hive基本使用——数据类型1、基本数据类型tinyint, smallint, int, bigint, boolean, float, double, string, binary, time...

    2018-06-02 14:14
    189
  • 大数据杂谈之——HIVE和HBASE区别

    1. 两者分别是什么?    Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被...

    2018-06-01 21:04
    163

SpringBoot
1529778
MongoDB
294471
算法
11711
Android
80287719
Python
6280763
搜索优化
2536856
Nginx
30101523
Dubbo
2091726
JMS
1518491
Netty
13554
Redis
26144153
Memcached
1167608
设计模式
2258517
Mycat
2048989
Web前端
24113690
Linux
105323498
JVM
1863080
J2EE
88376329
Java
189781865
MySQL
136425337

img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部