大数据
文章平均质量分 63
个人渣记录仅为自己搜索用
不盈利,只为分享,转载.
找到的原版url的,尽量会贴原版url.
如有版权侵犯,请留言删除.
展开
-
数据分析_ 支付_ dd
1. 联动分析 按天展示总额2. 点击某天总额. 按省份展示圆饼图. 连续值要用圆饼图, 除以(分段区间值)取整, 例如: 成功率分布在 0.900-0.999之间. 所以以0.01为一个区间⌊n/ 0.01⌋*0.01 , 0.901/0.01*0.01=90*0.01= 0.93. 波动分析. 某个指标+n个维度放在一张表上....原创 2018-07-04 09:46:02 · 1148 阅读 · 0 评论 -
Blockly 可视化编程 谷歌 流式计算可配置化
kuaide的日志采集配置采用写sql的方式,让用户来配置对采集的数据进行处理.Blockly是一套开源的产品,方便写sql. 更强大的是带有流程控制. 也有更多的函数.貌似没有 group by下的字符串拼接.数据采集,数据可视化,大数据...原创 2018-05-23 16:28:16 · 851 阅读 · 0 评论 -
大数据架构分析(BI工具)
ansible是新出现的自动化运维工具, ansible批量部署Consul1.典型应用 * ab test 平台 指标计算+指标 orderid, passenger 等. cube 算法,快速生成 n 个维度的数据,可随意的下探上放. 其他细节 见个人日记 http://www.cnblogs.com/fei33423/diary/2017/07/13/7160...原创 2018-01-29 14:45:27 · 1638 阅读 · 1 评论 -
分布式数据库, 高级形态 分布式事务数据库
两条路: 1. 关系型数据库 --> 分区后的割裂的关系型数据库 ( 同步有很多方案 ,基于整个库)--> 大统一数据库(mongodb,腾讯的开源,paxos 高可靠2. key-value 数据库 --> 含 mysql 多查询的 数据库 (phoenix)怎样打造一个分布式事务数据库——rocksDB, raft, mvcc,本质上是为了解决跨数据中心原创 2017-09-18 19:08:50 · 564 阅读 · 0 评论 -
hbase hive elasticsearch ( elsearch es ) mysql mongodb 技术选型
1. hbase:hbase + phoenix: 强大的大数据 key-value + 大数据关系型引擎 (无 join,join 性能差) 单节点,可靠性差.深入HBase架构解析(一)详细模块图,和流程图 读写流程模块图, 无读写时序图.启动注册流程,读写流程.水平扩容, rowKey 设置要小心. 写快,读慢 (通过副本,和 分区 split )原创 2017-09-13 12:16:01 · 3077 阅读 · 1 评论 -
HBase Region regionServer 分裂 原理,过程
1. 架构图 其中 dfsClient 是 hdfs 的客户端组件.2. HBase Region分裂 regionServer关于HBase报错org.apache.hadoop.hbase.NotServingRegionException的异常分析附录:hbase 一致性 问题思考2.转载 2017-09-25 12:07:42 · 1131 阅读 · 0 评论 -
mysql 分布式集群方案
作者:知乎用户链接:https://www.zhihu.com/question/22521550/answer/122813069来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。这些做sharding的产品一般分为三个层次,我来简单说下:1. proxy sharding,目前由cobar,mycat,drds,atlas修改,这几个产品原创 2017-09-20 14:37:32 · 1488 阅读 · 0 评论 -
hbase 压测结果
环境配置: 测试表有 60个 region ,分布在3台机器上 . 24个线程并发执行.测试数据: 1k 大小 10个字段. 压测结果: 1. 基本上写都很快 20us 2. 读相对比较慢 400us 3. 范围读慢点 18ms , gc 也频繁 tps : 同时读写 160801 tps ; 95%读 tps 109895 ; 95%范围读 11398单原创 2017-09-19 18:36:25 · 1005 阅读 · 0 评论 -
HBase 在淘宝的应用和优化小结
下载: http://walkoven.com/hbase:optimization and apply summary in taobao.pdf1 前言hbase是从hadoop中分离出来的apache顶级开源项目。由于它很好地用java实现了google的bigtable系统大部分特性,因此在 数据量猛增的今天非常受到欢迎。对于淘宝而言,随着市场规模的扩大,产品与技术的发展,业务转载 2017-09-18 21:08:31 · 585 阅读 · 0 评论 -
Hbase rowKey 最佳实践 和 mysql id 对比
http://geek.csdn.net/news/detail/202994先说下为什么 rowKey 那么重要.mysql: innodb , 最好要有自增 id ,这样确保存储的时候叠加,而不是节点分裂. 分表最好是 hash, 而且 id 还是自增. 不采用 按id (日期) 进行归档的方式. 自增归档比较麻烦.原创 2017-09-18 20:52:24 · 3147 阅读 · 0 评论 -
hbase Region split policy 分区 分裂策略 算法
本文是基于hbase-0.98.6-cdh5.2.0Region split policyHBase的region split策略一共有以下几种:IncreasingToUpperBoundRegionSplitPolicyConstantSizeRegionSplitPolicyDisabledRegionSplitPolicyKeyPrefixRegionSplit转载 2017-09-18 20:49:30 · 1310 阅读 · 0 评论 -
mongodb的分片(多字段),分片分裂原理
#指定集合中分片的片键,这里指定为id,time字段。mongos> db.runCommand({shardcollection:"test.log",key:{id:1,time:1}}){ "collectionsharded" : "test.log", "ok" : 1 }b) 配置服务器(Config Server)。它存储了所有Shard节点的配原创 2017-09-22 10:24:15 · 2054 阅读 · 0 评论 -
hbase 替换 mysql
本文着眼于 生成环境使用的经验. 线下试玩:数据从mysql迁移到hbase的一些思考及设计 代志远早年就职网易研究院从事MapReduce与DFS系统的自主研发,后加入支付宝数据平台负责Hadoop与HBase体系的架构设计与二次研发,支付宝流计算与分布式搜索系统的设计和研发,后成为支付宝海量计算体系架构师兼支付宝三代架构成员。现就转战于阿里巴巴集转载 2017-09-13 12:23:13 · 3008 阅读 · 0 评论 -
HDFS只支持文件append操作, 而依赖HDFS的HBase如何完成增删改查功能
Hbase 没有使用 map reduce . 采用了映射.一直疑惑Hbase怎么更新hdfs文件。因为HBase是一个支持高并发随机读写的数据库,而hdfs只适合于大批量数据处理,hdfs文件只能写一次,一旦关闭就再也不能修改了。而HBase却将数据存储在hdfs上!让人费解。原来的猜想是Hbase每次将更新写入磁盘都会创建一个新的hdfs文件,存放该数据旧版本的文件需转载 2017-09-13 12:01:39 · 1206 阅读 · 0 评论 -
大数据背景下的后台查询系统设计
前提首先强调一点:不管大数据还是还是普通后台查看. 1.不支持排序 (离线平台做的)实现方式:1.通过apache phenix sql limit获取前几个id.2.通过搜索引擎获取前几个id3.合并id.原创 2016-12-26 20:14:25 · 1599 阅读 · 0 评论