大数据
文章平均质量分 93
瓶中怪
一无所求 , 怎会一无所有
展开
-
zookeeper分布式应用程序协调服务
ZooKeeper是一个分布式的应用程序协调服务ZooKeeper是Hadoop和Hbase的重要组件,Hbase和ZooKeeper之间具有强依赖的关系.ZooKeeper为分布式应用提供一致性服务,它的功能包括:配置维护/域名服务/分布式同步/组服务和分布式锁的服务等.ZooKeeper角色图各服务器和Leader发生数据交换,Leader保证集群的数据同步Follower...原创 2019-01-04 23:29:29 · 1656 阅读 · 0 评论 -
SprkStream流式处理
简介SparkStream流式处理框架 ,与Storm相比之下 ,Storm处理的数据是一条条处理的更为实时 . SparkStream是微批处理 , 对数据进行一小批一小批的处理 . 它是 Spark API 的扩展,SparkStream底层也是RDD , 支持可扩展、高吞吐量、容错的准实时数据流处理 , 它处理数据也需要时间, 例如5秒 , 很短 , 但严格意义上也不是完全实时的 .s...原创 2019-02-25 09:12:46 · 1385 阅读 · 0 评论 -
spark数据分析引擎
简介spark是专为大规模数据处理而设计的快速通用的计算引擎 .spark既可以批处理也可以做流式处理spark运行速度比mapreduce快大约10倍 . 在机器学习 ,人工智能的逻辑回归跌打算法场景下spark运行速度比mapreduce大约快100多倍 .mapreduce在计算过程中涉及到本地磁盘的读写 , spark的数据流转都是在内存中完成的 . spark涉及到DAG(有向...原创 2019-02-21 19:36:40 · 1540 阅读 · 0 评论 -
sparkSQL
sparkSQL介绍sparkSQL将SQL解析成spark任务来执行 , 使用更友好 .Shark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎, 底层的计算采用了Spark , 性能比MapReduce的Hive大约快2倍之上 . 当数据全部加载到内存的情况下 , 性能几乎快10倍. Shark完全兼容了Hive , 但是Shark对于HIve的依赖性太强 , 不...原创 2019-02-21 22:57:34 · 1271 阅读 · 0 评论 -
Scala语言
Scala和java一样 , 是基于JVM的语言 . Scala是面向对象+面向函数编程的语言 .Scala的特性:1 . 与java无缝整合 , Scala也是编译成.class文件 , 交给JVM执行的. 所以java可以和Scala互相调用 .2 . 类型推断机制 , Scala的变量类型是var , 常量类型是val . Scala常用val , 因为JVM的垃圾回收机制可以很好的回...原创 2019-02-07 01:06:22 · 1655 阅读 · 0 评论 -
redis
redis安装redis的使用1️⃣ 切换数据库redis数据库默认共有16个 , 登陆时使用id为0的库格式 : select databasesid , 例如 : select 0 , select 1 , select 2 …2️⃣ 简单数据的数据添加和查找添加数据 : set key value , 例如 : set FlowerName 牵牛根据key , 查va...原创 2019-02-14 22:26:48 · 1475 阅读 · 0 评论 -
elasticsearch分布式搜索和分析引擎
Elasticsearch简介Easticsearch是一个基于Lucene的实时分布式搜索和分析的引擎 . 用于云计算中快速搜索 , 稳定可靠又快速 . 它基于RESTful接口Lucene是一个库 , 使用的时候需要用java语言集成到应用 . Lucene非常复杂 . Elasticsearch也使用java开发 , 也需要使用lucene作为核心实现搜索和索引 , 但是它通过简单的R...原创 2019-01-28 15:23:28 · 1709 阅读 · 3 评论 -
Hbase分布式非关系型数据库
Hbase操作进入hbase数据库:hbase shell,shell6中回删按键:ctrl+backspace帮助文档:help查看表list创建表创建带列族的表创建一张名为t1,列族是cf1的表:create 't1' , 'cf1'往表中添加数据put '[表名]','[rawkey]','[列族]:[字段名]','[值]',例子:put ‘t1’,‘00101...原创 2019-01-15 22:47:35 · 2142 阅读 · 0 评论 -
sqoop数据迁移工具
sqoopsqoop发行了2个版本,在同一个hadoop集群中不兼容,常用sqoop1的版本:sqoop1: 1.4.xsqoop2: 1.99.x版本相同产品: 阿里DataX架构客户端直接接入hadoop,通过任务调度生成mapreduce任务.可以对hadoop集群和数据库进行相互的导入导出sqoop安装部署基于hadoop2.xMapReducehivemy...原创 2019-01-14 22:30:32 · 5070 阅读 · 0 评论 -
Flume日志收集框架
Flume:分布式 可扩展 高可用的海量日志收集框架Flume的安装搭建Flume架构Flume实践原创 2019-01-18 23:10:32 · 1596 阅读 · 0 评论 -
Flume分布式海量日志收集框架搭建部署
Flume官网Flume部署:下载安装包并上传服务器解压/apache-flume-1.6.0-bin/conf目录下,将flume-env.sh.template模板文件改名为flume-env.sh,并配置jdk配置局部环境变量source ~/.bash_profilesource命令生效执行如下命令:yum install telnet -yyum in...原创 2019-01-18 13:13:22 · 1712 阅读 · 0 评论 -
HDFS分布式文件储存系统
最小单位关系型数据库 block块一般 行1.0 64M2.0 128MHadoop狭义:hadoop1=hdfs1+MR1Hadoop2=hdfs2+MR2+Yarn广义: Hadoop生态Hadoop的思想之源:旧时代的三驾马车来自于Google 03年发布3大论文, GFS、mapreduce、 Bigtable ;Dougcutting用Java实现)...原创 2019-01-03 23:24:55 · 1591 阅读 · 0 评论 -
hive数据仓库
HQLhive数据仓库的搭建hive是数据仓库,将sql语句转变成MapReducer任务进行运行的,具体任务由MapReducer执行,所以hive不是分布式的.HQLDDL语句操作库创建数据库create database [库名];查看库show databases;删除数据库drop database [库名]使用数据库use [库名]修改数据库操作表...原创 2019-01-11 23:20:07 · 1813 阅读 · 0 评论 -
MapReduce分布式离线计算框架
介绍:Google发布的三个产品:Google File System / MapReduc / BigTable的详细设计论文 , 奠定了风靡全球的大数据算法的基础.MapReduce分布式离线计算框架用于大规模数据(入门级是1TB)的并行计算. 将程序云星宇hadoop等分布式系统上MapReduce的概念是Map(映射)和Reduce(归约)Map(映射)将数据切片,把一组数据映射...原创 2019-01-05 20:04:19 · 2253 阅读 · 0 评论 -
hive元数据监控脚本
监控表配置类#!/usr/bin/python3# 以下是所有要进行元数据监控的表,直接添加即可compare_table_names = [ 't_dpay_loan_order',]处理逻辑类#!/usr/bin/python3import pymysqlimport need_compared_tableimport smtplibfrom email.mi...原创 2019-08-22 20:56:47 · 689 阅读 · 0 评论