数据运营
u014091123
这个作者很懒,什么都没留下…
展开
-
最靠谱的CDH5安装指南
系统要求系统:CentOS 6.5Cloudera:CM5.2.0 + CDH 5.2.0内存:主节点4G内存以上,其他节点需要2G以上内存Hadoop版本选择目前Hadoop比较流行的主要有2个版本,Apache和Cloudera版本。Apache Hadoop:维护人员比较多,更新频率比较快,但是稳定性比较差。Cloudera Hadoop(CDH):C转载 2017-05-05 12:33:17 · 475 阅读 · 0 评论 -
OLTP和OLAP的区别
联机事务处理OLTP(on-line transaction processing)主要是执行基本的、日常的事务处理,比如数据库记录的增、删、改、查。比如在银行存取一笔款,就是一个事务交易。OLTP的特点一般有:1.实时性要求高;2.数据量不是很大;3.交易一般是确定的,所以OLTP是对确定性的数据进行存取;(比如存取款都有一个特定的金额)4.并发性要求高并转载 2017-04-25 15:02:17 · 340 阅读 · 0 评论 -
基于 ELK Stack 和 Spark Streaming 的日志处理平台设计与实现
概述大数据时代,随着数据量不断增长,存储与计算集群的规模也逐渐扩大,几百上千台的云计算环境已不鲜见。现在的集群所需要解决的问题不仅仅是高性能、高可靠性、高可扩展性,还需要面对易维护性以及数据平台内部的数据共享性等诸多挑战。优秀的系统运维平台既能实现数据平台各组件的集中式管理、方便系统运维人员日常监测、提升运维效率,又能反馈系统运行状态给系统开发人员。例如采集数据仓库的日志可以按照时间序列查转载 2017-04-25 15:04:04 · 1416 阅读 · 0 评论 -
基于Solr的Hbase二级索引
关于Hbase二级索引HBase 是一个列存数据库,每行数据只有一个主键RowKey,无法依据指定列的数据进行检索。查询时需要通过RowKey进行检索,然后查看指定列的数据是什么,效率低下。在实际应用中,我们经常需要根据指定列进行检索,或者几个列进行组合检索,这就提出了建立 HBase 二级索引的需求。二级索引构建方式:表索引、列索引、全文索引表索引是将索引数据单独存储为一转载 2017-06-16 10:37:34 · 2945 阅读 · 0 评论 -
深入理解HBase Indexer
1. 简介Hbase Indexer全名为Lily hbase Indexer,是NGDATA公司为了将lily子系统里面相关HBase数据存储到Solr而开发的一个软件。NGDATA公司将源代码开源并托管在Github上,通过以下Github地址访问Hbase-Indexer项目主页及代码: https://github.com/NGDATA/hbase-indexer2.转载 2017-06-16 14:59:56 · 1176 阅读 · 0 评论 -
HBase Rowkey设计
建立SchemaHbase 模式建立或更新可以通过 Hbase shell 工具或者使用Hbase Java API 中的 Admin类。当列族发生变动时 hbase表必须处于 disabled 状态。例如:Configuration config = HBaseConfiguration.create();Admin admin = new Admin(conf);Str转载 2017-06-13 10:46:15 · 11628 阅读 · 2 评论 -
如何高效存储海量GPS数据
摘要: GPS数据使用越来越广,但如何高性能存储海量GPS数据仍然具有挑战,本文会介绍一种非常适合存储GPS数据的存储系统:阿里云NoSQL数据库TableStore,同时会介绍多个不同场景的技术方案。最近几年,移动设备已经非常普及,对GPS的使用也越来越常见,比如快车专车产品中的实时位置和历史轨迹图,运动App中的跑步,骑行轨迹等,很多研发人都遇到了如何设计系统架构来高效存储和查询G转载 2017-06-13 16:12:56 · 20299 阅读 · 0 评论 -
智能路径技术设计(一期)
一,解决问题目前动态派工算法获取师傅到目标点的距离及时间,是通过百度API获取的。目前调用百度API所需的时间相对较长,且有调用次数及并发数限制。并且这部分数据没有积累。因此打算开发智能路径系统,一期将调用百度API的数据采集起来,在测算距离及时间的起始点重复时,复用数据。二期将通过获取多能工轨迹,通过机器学习,对保存的距离时间做自优化。二,设计思路1.地图数据网格化原创 2017-08-04 14:52:30 · 777 阅读 · 1 评论