亚信大数据平台-CSDN博客

转载开源日志系统比较转载自董的博客

1. 背景介绍许多公司的平台每天会产生大量的日志（一般为流式数据，如，搜索引擎的pv，查询等），处理这些日志需要特定的日志系统，一般而言，这些系统需要具有以下特征：（1）构建应用系统和分析系统的桥梁，并将它们之间的关联解耦；（2）支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统；（3）具有高可扩展性。即：当数据量增加时，可以通过增加节点进行水平扩展。本文

2014-12-16 16:39:39 502

原创亚信大数据平台产品经理杨晋：大数据是怎么应用于技术方面的

2014中关村大数据日于2014年12月11日在中关村举办，大会以大会以“聚合数据资产，推动产业创新”为主题，探讨数据资产管理和变现、大数据深度技术以及行业大数据应用创新和生态系统建设等等关键问题。大会还承载从政亚信府主管部门到各行各业的需求和实践中的疑问，探讨包括政府、金融、运营商等部门是如何通过数据资产管理和运营，实现转型发展和产业创新的路径。在下午的金融@Big Data论坛上，亚信大数

2014-12-12 22:46:23 2380

转载 Databricks终止Shark项目，转至Spark SQL

摘要：近日，Databricks宣布终止对Shark的开发，新的SQL on Spark项目将被Spark SQL代替。在此之外，HIVE-7292项目将是对Hive部分的补充，将Spark作为一个替代执行引擎提供给Hive。在2014年7月1日的Spark Summit上，Databricks宣布终止对Shark的开发，将重点放到Spark SQL上。Databricks表示，Spa

2014-08-15 16:46:22 631

转载 Spark SQL的理解

转载自过往记忆（http://www.iteblog.com/）

2014-08-12 15:48:14 773

转载 Spark 0.9.1 MLLib 机器学习库

翻译自Spark官方文档。by月禾Spark 0.9.1 MLLib机器学习库简介依赖二元分类线性回归聚类协同过滤隐性反馈 vs 显性反馈梯度下降基础算法用Scala调用MLLib二元分类线性回归聚类协同过滤用Java调用MLLib用Python调用MLLib二元分类

2014-07-23 11:10:10 852

转载 Hadoop 2.0 ResourceManager HA原理

设计目标主要目的是为了解决两种问题计划外的机器挂掉计划内的如软件和硬件升级等. 架构流程：两个RM, 启动的时候都是standby, 进程启动以后状态未被加载, 转换为active后才会加载相应的状态并启动服务. RM的状态通过配置可以存储在zookeeper, HDFS上。Standby转换到active可以通过命令或开启auto failover。

2014-07-21 10:26:53 1122

转载 Hive Server 2 调研，安装和部署

背景我们使用Hive Server 1已经很长时间了，用户ad-hoc query，hive-web, wormhole，运营工具等都是通过hive server来提交语句。但是hive server极其不稳定，经常会莫名奇妙假死，导致client端所有的connection都被block住了。对此我们不得不配置一个crontab检查脚本，会不断执行"show tables

2014-07-18 16:11:28 1008

原创 hadoop平台gz、lzo压缩对比

压缩比:rcfile: 1.04rcfile+snappy: 0.27rcfile+lzo: 0.25sequencefile: 0.83sequencefile+snappy:0.84sequencefile+lzo: 0.79单列读取速度:select count(distinct product

2014-07-15 17:20:28 2815

原创 Hbase实施方案估算方法

Hbase实施方案估算方法：按照查询平均响应时间为 100ms，并发查询请求300次 /秒为标准进行估算单个 regionserver单线程每秒处理请求个数为 1秒/100 毫秒=10个请求由于 regionserver和数据节点部署在同一台主机上，通过 yarn进行资源分配，假设分配 5个cpu 核则单个 regionserver每秒处理请求数位 10*5=50次 /秒由

2014-07-14 17:00:47 1132

转载 HBASE表设计

1. 表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照 region分区情况，在集群内做数据的

2014-07-11 01:42:59 472

转载 HIVE RCFile高效存储结构

本文介绍了Facebook公司数据分析系统中的RCFile存储结构，该结构集行存储和列存储的优点于一身，在 MapReduce环境下的大规模数据分析中扮演重要角色。Facebook曾在2010 ICDE（IEEE International Conference on Data Engineering）会议上介绍了数据仓库Hive。Hive存储海量数据在Hadoop系统中，提供了一套类数据

2014-07-11 01:39:25 486

原创大数据平台下多租户架构研究

多租户技术（multi-tenancy technology）是一种软件架构技术，它是在探讨与实现如何于多用户的环境下共用相同的系统或程序组件，并且仍可确保各用户间数据的隔离性。在大数据环境下实现多租户涉及如下关键技术：1. 资源池Hadoop资源池(pool)，或者作业池。每个pool里有一定量的资源（管理员配置），每个用户属于某个pool，其提交的作业可使用这个pool中的资源。资源

2014-07-11 01:05:40 15059 2

转载 TDW与PostgreSQL数据互访问功能

TDW与PostgreSQL数据互访问功能李巍TDW作为一个离线数据分析系统，在处理海量数据方面，通过并行计算，有很好的性能优势。但是我们知道，想用一个大而全的系统解决所有问题一般也是不现实的，同样，TDW也有它的劣势，比如对小数据处理性能低，update/delete性能差、接口不丰富等。因此我们引入一个强大的开源数据库PostgreSQL，并对其做一些功能扩展，使之有访问TDW数据的能

2014-07-02 23:52:12 886

转载企业级PAAS平台-多租户

下图为Gartner的多租户参考架构在私有云和公用云环境对多租户的理解上是有不同的概念的。在公用云环境往往我们谈的是saas的多租户，租户往往为使用业务系统的一个企业或组织，而在私有云环境，paas平台提供的应用往往为平台级应用，平台级应用面对的租户是业务系统本身。在多租户和云结合的情况下，iaas基础资源层的共享已经会变化为最基本的要求。那么在iaas层之上来谈主要则包括

2014-06-25 15:43:00 4279

转载揭秘腾讯大数据之平台综述篇

腾讯业务产品线众多，拥有海量的活跃用户，每天线上产生的数据超乎想象，必然会成为数据大户。特别是随着传统业务增长放缓，以及移动互联网时代的精细化运营，对于大数据分析和挖掘的重视程度高于以往任何时候，如何从大数据中获取高价值，已经成为大家关心的焦点问题。在这样的大背景下，为了公司各业务产品能够使用更丰富优质的数据服务，近年腾讯大数据平台得到迅猛发展。从上图可以看出，腾讯大数据平台有如下

2014-06-17 16:25:06 1448

转载资源管理框架（mesos/YARN/coraca/Torca/Omega)选型分析

1 资源调度的目标和价值1.1 子系统高效调度任务之间资源隔离，减少争抢。任务分配调度时结合资源分配，各个任务分配合理的资源，充分利用系统资源，减少资源利用不充分的问题。资源调度结合优先级，优先级高的分配更多的资源。1.2 提高全系统的资源利用率各个子系统，存在不同时期，对资源需求不一样的情况，平滑系统资源的利用。1.3 支持动态调整切分资源，增强系统扩

2014-06-17 16:22:39 901

yangjin