水田如雅
不生产代码,只是代码的搬运工
展开
-
Spark——分布式并行计算概念
一,概念 一个资源密集型的任务,需要一组资源并行的完成,当计算机任务过重,就把计算任务拆分,然后放到多个计算节点上同时执行,这就是分布式并行计算啦。分布式并行计算,强调用硬件的堆叠,来解决问题。原创 2016-08-21 21:23:57 · 2844 阅读 · 1 评论 -
MapReduce(一)
分布式并行编程框架特点: MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map和Reduce•编程容易,不需要掌握分布式并行编程细节,也可以很容易把自己的程序运行在分布式系统上,完成海量数据的计算; •MapReduce采用“分而治之”策略,一个存储在分布式文件系统中的大规模数据集,会被切分成许多独立的分片(split),这些分片可以被多个Map任原创 2016-12-19 22:33:12 · 1397 阅读 · 1 评论 -
能源物联网中如何处理上报的大量数据问题的思路分析(题目有点长,但是我不介意它更长)--后续会继续补充
V1.0 今年年底,随着运营的新能源车的增多,车辆上报上来的各种can消息也飞速增长,传统的关系型数据库已经无法满足存储的需要,因为转而向非关系型数据库去寻求帮助。目前面临的问题: 1,数据存储:large,粗略估计,明年预计每日过4亿; 2,can消息频繁上报,造成入库不及时的堆积问题:入库太慢,然而上报太快; ...原创 2017-01-10 22:43:58 · 1006 阅读 · 2 评论 -
HBase常用过滤器
列值过滤器 SingleColumnValueFilter filter = new SingleColumnValueFilter( Bytes.toBytes(HBRunner.DEFAULT_FAMILYNAM), Bytes.toBytes( BatteryGroupICU1Columns.BATTERY_GROUP_NO),原创 2017-05-11 23:07:43 · 804 阅读 · 1 评论 -
HBase写入优化--write buff
write buff操作 前两天在观察kafka消费数据的时候,发现HBase偶尔会报一个org.apache.hadoop.hbase.RegionTooBusyException: org.apache.hadoop.hbase.RegionTooBusyException这种错误出来,从描述上看,是HBase写入太过频繁导致的。首先来看我的写入操作代码:/** * 单条更新hb原创 2017-06-28 21:43:56 · 1393 阅读 · 0 评论 -
Spring-Kafka 2.0.0发送API翻译
Kafka Template–2.2.0 apiKafkaTemplateKafkaTemplate这个类包装了个生产者,来提供方便的发送数据到kafka的topic里面。 同步和异步的方法都有,异步方法返回一个Future。ListenableFuture<SendResult<K, V>> sendDefault(V data);ListenableFuture<SendResult<K, V翻译 2017-07-03 23:45:14 · 2551 阅读 · 2 评论 -
HBase计算表的总count
不解释,看代码去吧,很简单。 private long findBatterHisDataCount(BatteryHisDto dto) throws Exception{ long totalSize=0; Table table=runner.getTable(tableName); Scan countScan ...原创 2017-06-23 21:49:39 · 2315 阅读 · 0 评论 -
HBase伪快速分页查询
之前有两个功能,都是查询历史数据的一个分页查询,系统刚上线的时候,没有太多的数据,就一直扔在mysql里面,后来里面数据上亿之后,就查不到了,而且数据还在以指数级增长方式上报,后来,这部分业务单独迁移到hbase集群去存放,之前页面的查询也改查hbase了。但是hbase对分页查询这种东西支持不好,如果按照以往查询mysql的思路,查询出一个总的count,再查询出这一页的数据,这种...原创 2017-06-23 22:01:36 · 2102 阅读 · 4 评论 -
HBase架构解析
Hbase组件客户端Client整个HBase集群的入口使用HBase RPC机制与HMaster和HRegionserver通信与HMaster通信进行管理类的操作与HRegionserver通信进行读写类操作包含访问HBase的接口,并维护cache来加快对HBase的访问,与HRegionserver交互程序协调服务Zookeeper保证任何时候,集群中只有一个Master存原创 2017-08-01 21:51:40 · 568 阅读 · 1 评论 -
HBase数据存储
HRegionServer HBase的数据文件都存储在HDFS上,格式主要有两种: - HFile:HBase中KeyValue数据的存储格式,HFile是Hadoop的二进制文件,实际上StoreFile就是对HFile做了轻量级的包装,即StoreFile底层就是HFile - HLog File:HBase中WAL(Write Ahead Log)的存储格式,物理上是Hadoop的S原创 2017-08-01 22:36:11 · 1920 阅读 · 1 评论 -
HBase查询优化——持续更新
Scan:setBatch,setCaching,setCacheBlockspublic void setBatch(int batch)public void setCaching(int caching)public void setCacheBlocks(boolean cacheBlocks)setBatch:为设置获取记录的列个数,默认无限制,也就是返回所有的列setCachin原创 2017-08-02 22:55:53 · 824 阅读 · 1 评论 -
HBase常用命令汇总——综述(一)
hbase(main):009:0> helpHBase Shell, version 1.2.4, r67592f3d062743907f8c5ae00dbbe1ae4f69e5af, Tue Oct 25 18:10:20 CDT 2016Type 'help "COMMAND"', (e.g. 'help "get"' -- the quotes are necessary) for原创 2016-12-08 17:11:31 · 1026 阅读 · 0 评论 -
HBase核心功能模块--读书笔记
客户端Client 客户端 Client 是整个 HBase 系统的入口。使用者直接通过客户端操作 HBase。客户端使用 HBase 的 RPC 机制与 HMaster 和 RegionServer进行通信。对于管理类操作,Client 与HMaster 进行 RPC 通信;对于数据读写类操作,Client 与RegionServer 进行 RPC 交互。这里客户端可以是多个,并不限定是原生 J原创 2016-12-08 15:59:34 · 1341 阅读 · 0 评论 -
HBase数据结构(读书笔记 )
背景: 最近在做一些跟大数据相关的东西,涉及到数据的存储和分析,考虑各个方面,选择使用HBase进行存储,使用原生Java API进行数据分析,之后会陆续写一系列来说明最近做的东西,给像我这样未曾涉及过这个领域的人一点儿idea。引言: HBase以表的方式组织数据源,这一点跟关系型数据库时一样的,在我们的application里面,通过API/Thrift、或者各种SQL引擎,将原创 2016-12-10 21:16:16 · 1128 阅读 · 2 评论 -
HBase数据模型的一些概念
首先来先理解一个概念:HBase是一种列式存储的分布式数据库。表 在HBase中数据以表的形式存储。使用表的主要原因是把某些列组织起来一起访问,同一个表中的数据通常是相关的,通过列族进一步把一些列组织起来一起访问。用户可以通过命令行或者Java API来创建表。表明通常使用Java Stirng 类型或者byte数组表示,表名作为HDFS存储路径的一部分来使用,因此必须要符原创 2016-12-10 21:40:02 · 1208 阅读 · 1 评论 -
HBase的Rowkey设计(mark)
在HBase中细节上的设计,最最最重要的就是我该选取什么做Rowkey,Rowkey的选择,最直接的影响就是对你之后分析数据的影响了。 Rowkey是不可分割的字节数,按照字典排序由低到高存储在表中。一个空的数组用来标识表空间的起始或结尾。 在设计HBase表时,Rowkey设计是最重要的事情,应该基于预期的访问模式来为Rowkey建模。Ro...原创 2016-12-11 11:42:09 · 1345 阅读 · 2 评论 -
HBase数据访问的一些常用方式
类型 特点 场合 优缺点分析 Native Java API 最常规和高效的访问方式 适合MapReduce作业并行批处理HBase表数据 Hbase Shell HBase的命令行工具,最简单的访问方式 适合HBase管理使用 Thrift GateWay 利用Thrift序列化技术,支持c++,PHP,Python等多种语言 适合其他原创 2016-12-11 21:24:06 · 5083 阅读 · 4 评论 -
Hbase操作table常见方法示例
首先上我的输出类:/** * 功能:电池历史数据数据结构 * Created by liuhuichao on 2016/12/5. */public class ResBatteryDataHistory implements Serializable { private String batteryNo; private Integer batteryType;原创 2016-12-14 17:44:03 · 2033 阅读 · 6 评论 -
Hadoop项目结构
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high原创 2016-11-21 22:41:09 · 1278 阅读 · 6 评论 -
Hbase单机安装及使用hbase shell进行简单操作
一,配置环境变量在etc/prifile中加入java环境变量及hbase环境变量:#set java environmentJAVA_HOME=/usr/local/lhc/jdk1.8.0_111PATH=$JAVA_HOME/bin:$PATHCLASSPATH=$JAVA_HOME/jre/lib/ext:$JAVA_HOME/lib/tools.jarexport PATH JA原创 2016-12-05 15:41:11 · 956 阅读 · 1 评论 -
使用Java Api 对HBase进行简单操作
/** * 功能:测试Hbase基本的增删改查操作 * Created by liuhuichao on 2016/12/5. */public class HbaseCRUDTest { public static Configuration configuration; static{ configuration= HBaseConfiguration原创 2016-12-06 09:45:33 · 1226 阅读 · 0 评论 -
HBase——使用Put迁移MySql数据到Hbase
先上code:/** * 功能:迁移mysql上电池历史数据到hbase * Created by liuhuichao on 2016/12/6. */public class MySqlToHBase { /** * 获取表 * @param tableName * @return * @throws IOException原创 2016-12-06 16:05:21 · 1062 阅读 · 1 评论 -
Why HBase
3.1.1,为什么选用HBasesa) 容量巨大HBase 的单表可以有百亿行、百万列,数据矩阵横向和纵向两个维度所支持的数据量级都非常具有弹性。传统的关系型数据库,如 Oracle 和 MySQL 等,如果数据记录在亿级别,查询和写入的性能都会呈指数级下降,所以更大的数据量级对传统数据库来讲是一种灾难。而 HBase 对于存储百亿、千亿甚至更多的数据都不存在任何问题。对于高维数据,百万原创 2016-12-08 10:34:56 · 775 阅读 · 0 评论 -
HBase踩过的坑——持续更新
1.HBase数据热点问题 问题描述: 在某一个时刻,电池数据表的以某些规则开头的数据,比如M12******,这些电池一直在上报数据,由于HBase的存储是按照字典顺序排序的,所有某一时刻,相似规则的数据落在了同一个region上,造成了数据热点。 解决方法: 我们采取的是rowkey散列+预分区的方式:http://student-lp...原创 2017-11-06 21:26:03 · 3376 阅读 · 0 评论