大数据相关
文章平均质量分 92
大数据相关知识
东北溜达滑
这个作者很懒,什么都没留下…
展开
-
神兽麒麟kylin驾驭指南
简单介绍一下:Apache Kylin 是一个开源的分布式分析引擎 。Apache 顶级项目之一,国产的,很屌的,神兽,大家都叫他麒麟。支持多维分析,支持超大规模数据,支持亚秒级交互式分析查询,支持高并发…。1、前言在介绍kylin之前先介绍下数据处理分类。因为我们神兽Kylin就是ebay开发的一套OLAP系统 。那什么是OLAP呢?1.1、OLAP和OLTP数据处理大致可以分成两大...原创 2019-12-04 13:02:08 · 1085 阅读 · 0 评论 -
瞅一眼吧!redis---高级应用
1 redis高级的数据类型HyperLogLog1.1 介绍 Redis在2.8.9的版本中添加了HyperLogLog结构,HyperLogLog是用来做基数统计的算法,HyperLogLog的优点是,在输入元素的数量或者体积非常非常大时,计算基数所需的空间总是固定的,并且是很小的。 在Redis里面,每个HyperLogLog键只需要花费12kb内存,就...原创 2019-11-30 20:35:38 · 271 阅读 · 0 评论 -
redis---基础大全
Redis1、Redis介绍说明:①redis是基于内存的nosql的数据库。(nosql: not only structure query language) Redis是一种面向“键/值”对数据类型的内存数据库②no sql数据库有: hbase mongodb redis③redis的性能高: 读的速度:11万次/秒 写的速度:8.1万次/秒④redis底层的源码使...原创 2019-11-30 20:34:28 · 276 阅读 · 0 评论 -
kafka提高篇总结
Kafka继kafka基础之后再来点高级实用的。顺便做一个kafka整理总结。查看kafka自身维护偏移量:kafka-run-class.sh kafka.tools.GetOffsetShell --broker-list master:9092 --topic flink --time -11、kafka自定义分区分析步骤: 1,设计一个子类继承分区父类,重写其中的part...原创 2019-11-30 20:27:02 · 150 阅读 · 0 评论 -
超详细的Kafka基础
Kafka基础zookeeper和bootstrap-server测试案例,下午详细介绍。测试案例(zk:2181)(b-s:9092)结果whitelist zookeeper正确whitelist bootstrap-server正确blacklist zookeeper正确blacklist bootstrap-server需指定w...原创 2019-11-30 18:54:25 · 1428 阅读 · 0 评论 -
hive元数据异常解决方案
hive元数据异常解决方案 最近在IDEA里使用spark向hive中保存数据。添加依赖时hive-jdbc的版本写错2.3.6的hive写成1.3.6,并且执行成功。导致hive元数据异常。metastore 服务启动报错(启动命令:hive --service metastore &)Caused by: MetaException(message:Hive Schema v...原创 2019-11-30 11:40:53 · 1937 阅读 · 0 评论 -
spark DSL风格代码的一点使用总结
1、项目准备①.将hive-site.xml hdfs-site.xml配置文件导入项目resources中。②.导入hive、spark(spark-sql、spark-hive、spark-sql、spark-core)、hadoop、mysql、scala相关依赖。之所以要mysql和hive依赖,因为结果最终想实现到mysql和hive中。③修改hive-site.xml配置文件...原创 2019-11-30 11:17:10 · 1720 阅读 · 0 评论 -
Hbase DDL and DML
1 DDL1.1 建表create :建表hbase(main):010:0> create 'user_info','base_info','extra_info'=> Hbase::Table - user_infohbase(main):043:0> create 'ns1:user_info', {NAME=>'base_info', BLOOMFI...原创 2019-10-31 16:10:38 · 280 阅读 · 0 评论 -
Hbase的java api
Hbase的Java api1 、准备工作创建Maven的Java项目并配置文件导入依赖<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <vers...原创 2019-10-31 15:58:53 · 171 阅读 · 0 评论 -
超明白的Hbase的存储机制
Hbase的存储机制1、存储模型数据的存储是每个Region所承担的工作-数据的存储是每个Region所承担的工作。-我们知道一个Region代表的是一张 Hbase表中特定Rowkey范围内的数据,-而Hbase是面向列存储的数据库,所以在一个Region中,有多个文件来存储这些列。-Hbase中数据列是由列簇来组织的,所以每一个列簇都会有对应的一个数据结构, * Hba...原创 2019-10-31 15:38:18 · 573 阅读 · 0 评论 -
Hbase过滤器
Hbase的过滤器1 、SingleColumnValueFilter/** * 高级查询 * 过滤器链查询 */public class Demo6_Filter { /** * 需求: * select * from ns1_userinfo where age <= 18 and name = narudo */ @Te...原创 2019-10-31 14:58:54 · 469 阅读 · 0 评论 -
sqoop常用案例都在这
一、sqoop案例sqoop语句要求写成1行,多行时用\连接。sqoop的相关属性有先后顺序、有搭配要求。sqoop helpAvailable commands: codegen Generate code to interact with database records create-hive-table Import a table defi...原创 2019-10-21 09:13:41 · 338 阅读 · 0 评论 -
hive常用函数及案例大全
扩展hive函数 案列以及解释1.rand();rand(int sedd)取随机数 返回值为double类型说明:返回一个0到1范围内的随机数。如果指定种子seed,则会等到一个稳定的随机数序列2.round(double n,a) :对输入的n数,保留a位小数,四舍五入, round(double a) 四舍五入3.ceil:向上取整 select ceil(45.6)...原创 2019-10-15 12:49:53 · 937 阅读 · 0 评论 -
【flume】详细介绍及使用
1.Flume简介Apache flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统,用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储(如文本、HDFS、Hbase等)。其使用不仅仅限于日志数据聚合。因为数据源是可定制的(内置Avro,ThriftSyslog,Netcat),Flume可以用于传输大量事件数据,包括但不限于网络流量数据、社交媒体...原创 2019-10-15 11:20:11 · 749 阅读 · 0 评论 -
flume基础
一:Flume:1.1:flume简介Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log dataApache flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统...原创 2019-09-23 15:36:46 · 417 阅读 · 0 评论 -
SSH免密
1.分别在master 、slave1、slave2执行以下几步操作。首先安装ssh协议和rsync工具。如果已经安装了,会提醒安装过了,接着往下执行就好。输入命令:yum install ssh输入命令:yum insatll rsync然后启动ssh服务,已经开启了则重启服务。输入命令:service sshd restart或者 service sshd start2.用 rs...原创 2019-09-02 01:08:15 · 230 阅读 · 0 评论 -
zookeeper分布式一致性——Paxos算法
搭建HA集群的时候需要先安装zookeeper,而zookeeper的作用就是保持分布式一致性,它是如何保持分布式一致性的呢?接下来做一个具体了解。 说到zookeeper我们不得不提及Paxos,因为可以说Paxos是Zookeeper的灵魂。Paxos,它是一个基于消息传递的一致性算法,Leslie Lamport在1990年提出,近几年被广泛应用于分布式计算中。Google的Chubby...原创 2019-08-31 22:01:29 · 432 阅读 · 0 评论 -
hdfs的全分布式环境搭建
在安装之前需要先做好以下几点准备:1.首先准备好三台虚拟机,每台虚拟机都已经安装好JDk环境。2.确定每台虚拟机的网络连接正常。ssh免密配置完成。3.确认自己主机的ip地址,主机名。我的是 master 192.168.174.170slave1 192.168.174.171slave2 192.168.174.172以上任何一点有问题,我的博客都有详细安装教程...原创 2019-09-02 14:17:33 · 174 阅读 · 0 评论