大数据
Hadoop、Hive、Hbase、Zookeeper、CDH、ES、Flume、Storm、Kafka
一个孤独漫步者的遐想
立志做摄影界书法最美的段子手,漫画界文笔最好的美食家,然而毕业于计算机系
展开
-
19-HBase优化
HBaseprotobufferProtocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据串行化,或者说序列化。它很适合做数据存储或 RPC 数据交换格式。可用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式。目前提供了 C++、Java、Python 三种语言的 API。安装:tar -zxvf protobuf-2.5.0.tar.gzyum grouplistyum groupinstall “Development tools”原创 2020-05-24 19:54:08 · 247 阅读 · 0 评论 -
18-HBase整理
hbasehbase是数据库特点高可靠性高性能面向列可伸缩实时读写数据量十亿级别的行百万级别的列速度快的原因充分利用内存使用了LSM树缓存机制文件是顺序读数据模型rowkey相当于MySQL中的主键,唯一标识一行记录rowkeys是字典序rowkey的长度最长是64k,但是一般推荐10-100字节column family一组列的集合列族必须作为表的schema定义给出列族是权限,存储的最小单元qulifier列可以动态的,随机的插原创 2020-05-24 19:53:21 · 183 阅读 · 0 评论 -
17-Hbase部署
HbaseHbase部署standalone模式安装伪分布式/etc/profileHBASE_HOMEhbase-env.sh中配置JAVA_HOME配置hbase-site.xml如下hbase.rootdirfile:///home/testuser/hbasehbase.zookeeper.property.dataDir/home/testuser/zookeeperHbase Shell通过 hbase shell命令进入H原创 2020-05-24 19:52:22 · 161 阅读 · 0 评论 -
16-HBase
HBaseHBase简介Google三篇论文:GFSHDFSMap ReduceMRBigtableHBaseHadoop生态系统非关系型数据库知识面扩展Cassandra hbase mongodbCouchdb,文件存储数据库Neo4j非关系型图数据库HBaseHadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduc原创 2020-05-20 10:17:54 · 285 阅读 · 0 评论 -
15-Hadoop压缩和存储
Hadoop压缩和存储1、 Hadoop压缩配置1) MR支持的压缩编码压缩格式 工具 算法 文件扩展名 是否可切分DEFAULT 无 DEFAULT .deflate 否Gzip gzip DEFAULT .gz 否bzip2 bzip2 bzip2 .bz2 是LZO lzop LZO .lzo 否LZ4 无 LZ4 .lz4 否Snappy 无 Snappy .snap...原创 2020-02-22 09:29:01 · 125 阅读 · 0 评论 -
14-Hive-HA
Hive-HAhive的搭建方式有三种:1、Local/Embedded Metastore Database (Derby)2、Remote Metastore Database3、Remote Metastore Serverhiveserver2的优点如下:1、在应用端不需要部署hadoop和hive的客户端2、hiveserver2不用直接将hdfs和metastore暴露给...原创 2020-02-22 09:27:30 · 264 阅读 · 0 评论 -
13-Hive分桶优化
Hive数据仓库Hive参数hive 参数、变量hive当中的参数、变量,都是以命名空间开头hive 参数设置方式1、修改配置文件 ${HIVE_HOME}/conf/hive-site.xml2、启动hive cli时,通过–hiveconf key=value的方式进行设置例:hive --hiveconf hive.cli.print.header=true...原创 2020-02-19 10:27:45 · 519 阅读 · 0 评论 -
12-Hive函数
Hive数据仓库Hive函数内置运算符关系运算符运算符 类型 说明A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSEA == B 无 失败,因为无效的语法。 SQL使用”=”,不使用”==”。A <> B 所有原始类型 如果A不等于B返回TRUE,否则返回FALSE。如果A或B值为”NULL”,结果返回”NULL”。A < B 所有原...原创 2020-02-18 16:20:00 · 145 阅读 · 0 评论 -
11-Hive-SQL语法
Hive数据仓库HiveBeelineHiveBeeline就是一个客户端Beeline 要与HiveServer2配合使用服务端启动hiveserver2hiveserver2客户的通过beeline两种方式连接到hive1、beeline -u jdbc:hive2://localhost:10000/default -n root2、beelinebeelin...原创 2020-02-18 16:17:04 · 291 阅读 · 0 评论 -
10-Hive数据仓库
Hive数据仓库Hive简介Hive的产生非java编程者对HDFS的数据做Mapreduce操作Hive : 数据仓库Hive:解释器,编译器,优化器等Hive 运行时,元数据存储在关系型数据库里面Hive架构(1)用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接...原创 2020-02-15 15:10:56 · 214 阅读 · 0 评论 -
09-Hadoop编程
HAdoop编程实例/opt/sxt/hadoop-2.6.5/share/hadoop/mapreduce/jar包hadoop-mapreduce-examples-2.6.5.ja准备for i in seq 100000;do echo “hello sxt $i” >> test.txt;donehdfs dfs -mkdir -p /user/root...原创 2020-02-15 13:57:09 · 191 阅读 · 0 评论 -
08-Hadoop-HA
Hadoophdfs API部署包本地环境使用JAR包hadoop-2.6.5sharedoc(文档)hadoopcommonhdfshttpdfskmsmapreducetoolsyarn源码包绑定源码lib包整合**.jarWinows环境环境变量HADOOP_HOMEF:/usr/hadoo...原创 2020-02-10 12:09:57 · 176 阅读 · 0 评论 -
07-Hadoop安装部署
Hadoop安装部署伪分布式伪分布部署操作系统环境依赖软件ssh,jdk安装JDKrpm -i jdk-7u67-linux-x64.rpmwhereis java查看安装路径SSHssh-keygen -t dsa -P ‘’ -f ~/.ssh/id_dsacat id_dsa.pub >> authorized_keyss...原创 2020-02-09 23:11:45 · 139 阅读 · 0 评论 -
06-分布式云平台HADOOP
分布式云平台HADOOP讨论需求1T 文件,数字,行存储重复行全排序单词重复数只有一台128M,64M,256G1,内存不能放下全量数据 OOM解决方法1方法2方法3集群并行:提升速度的关键分布式运行计算与数据在一起存+算(文件切割的规范管理)计算向数据移动Net music log、有限电视hadoop分布式...原创 2020-02-08 15:37:35 · 166 阅读 · 0 评论 -
05-高并发负载均衡-nginx
高并发负载均衡-nginx高并发负载均衡-介绍nginxNginx和TengineNighx(“engine x”)是一个高性能的HTTP和反向代理的服务器,也是一个IMAP/POP3/SMTP代理服务器第一个公开版本0.1.0发布于2004年10月4日其将源代码以类BSD许可证的形式发布,因它的稳定性、丰富的功能集、示例配置文件和低系统资源的消而闻名官方测试ng...原创 2020-02-04 22:22:01 · 239 阅读 · 0 评论 -
04-高并发负载均衡-LVS
高并发负载均衡-LVSLVS介绍SAP HANA网络介绍七层MTU 1500 B功能分层整个互联网建立在下一跳的模式下IP时逻辑上的两个端点MAC是物理上连接的两个节点端点间TCP传输过程中确认机制状态机制不可分割解析数据包需要成本交换机:二层,只关心MAC地址学习机制路由器:三层,只关心IP和路由表LVS服务器:四层,只关心PORT,状...原创 2020-02-02 22:56:50 · 252 阅读 · 0 评论 -
03-Linux编程
03-Linux编程whatwhyhowshell bash解释器用户交互输入文本文件输入启动器读取方式当前shellsource test.txt. test.txt新建子shell/bin/bash file./file脚本本质#!/bin/bash#!/usr/bin/python命令pstree(进程树)echoecho $$...原创 2020-02-02 22:51:01 · 106 阅读 · 0 评论 -
02-Linux使用
Linux使用正则表达式通配符ls -l ./a*?ls -l ./a?匹配操作符^$.\[]<,>|(#)\n重复操作符?{n}{n,}{n,m}匹配任意字符.*与扩展正则表达式的区别grep basic?+{|()grepsort排序文件的行...原创 2020-02-02 22:49:11 · 117 阅读 · 0 评论 -
01-Linux系统安装
Linux系统安装Centos6.5(mini)VMnet8虚拟网络编辑器192.168.2.0更改适配器192.168.2.1NAT192.168.2.2VMware服务检查VMware NAT Service启动VMnetDHCP启动VMware Workstation启动vi /etc/sysconf...原创 2020-02-02 22:38:10 · 136 阅读 · 0 评论