技术心得
山水佳音
来自千古龙飞地,关注互联网,大数据、数据仓库及创新应用。
展开
-
闭关一年的干货与朋友们分享 先预告一下
闭关一年,即将出关,到时与朋友分享 先预告一下一、Pivotal HDB实战二、BI展示工具Metabase与Superset对比三、Elasticsearch在高速公路收费稽查中的应用四、Grafana在高速公路收费稽查中的应用五、OD分析的地图展示六、NoFS图片系统在高速行业中的应用前景分析原创 2017-08-16 20:55:24 · 2357 阅读 · 5 评论 -
搭建独立大数据实验室的设想
南京第一家开放大数据实验室原创 2014-10-17 12:57:06 · 1820 阅读 · 0 评论 -
Facebook Bigdata - Presto 0.80 版本说明
Facebook Bigdata - Presto升级到0.80。本次升级主要是支持Hive ORC读取器,提供了Cassandra 2.1.0驱动支持,还提供了对大数据查询的试验性支持。原创 2014-11-05 14:16:59 · 1801 阅读 · 0 评论 -
中小企业的大数据技术路线选择
目前,大数据主要应用在互联网、电商领域,电信、电力行业也在逐步使用。对广大的中小企业来说,大数据也听得太多了。然而,大数据的技术门槛还是很高的。从技术路线上来说,选择大公司使用的技术方案可能是不能承受之重。 笔者所在的公司,选择的是行业通用的Hadoop方案。历经一年之久,前后三拨人员,一个Demo版还没出来。大数据真的让人望眼欲穿啊。 对中小企业而言,要选择适合自己的大数据技术路线。跟着大公司,人云亦云,还真玩不起。那么,有没有适合中小企业的大数据方案呢?笔者用心收集了几个原创 2014-11-04 10:14:45 · 4819 阅读 · 2 评论 -
Ubuntu: GlusterFS+HBase安装教程
HBase通常安装在Hadoop HDFS上,但也可以安装在其他实现了Hadoop文件接口的分布式文件系统上,如KFS。glusterfs是一个集群文件系统可扩展到几peta-bytes。它集合了各种存储在infiniband rdma或互连成一个大型并行网络文件系统。存储可以由任何商品等硬件x86_64服务器和sata-ii和infiniband HBA。GlusterFS比Hadoop HDFS可以提供更高的性能,HBase也因此可以获得更高的性能。将HBase安装在GlusterFS上,是可行的。该方原创 2014-10-19 21:51:54 · 2241 阅读 · 0 评论 -
低调、奢华、有内涵的敏捷式大数据方案:Flume+Cassandra+Presto+SpagoBI
“Ad-hoc analysis over Cassandra data with Facebook Presto”一文,对Cassandra+Presto结合实现大数据即席分析进行了介绍。Presto是为满足交互式即席查询需求而优化的分布式SQL查询引擎。它支持标准ANSI SQL,包括复杂查询,聚合,连接和窗口函数。Cassandra以前缺少交互式即席查询功能,甚至在CQL中不支持聚合函数。因为这个原因,Cassandra在作为数据库使用时经常被混淆。分析Cassandra中的数据有下边两个框架:原创 2014-10-10 18:40:22 · 9220 阅读 · 1 评论 -
Trafodion:Transactional SQL on HBase
HBase的SQL能力一直不足。Phoenix缺乏Join能力,eBay提出的kylin还不够简洁,facebook Presto的HBase连接器还没公开。那么,Trafodion来了。它在HBase上提供了标准SQL功能,并支持事务OLTP。Trafodion是HP的开源举措,培养在惠普实验室和HP-IT开发一个企业级的SQL上的HBase解决方案。惠普拥有超过20年的积累,针对大数据的事务或业务工作负载,已经开发事务的SQL技术进入数据库technologyand解决方案。 Trafodion给Had翻译 2014-10-24 14:44:02 · 6985 阅读 · 1 评论 -
Facebook Bigdata - Presto 0.82 版本说明
Facebook Bigdata - Presto 0.82 版本说明翻译 2014-11-10 13:33:50 · 1038 阅读 · 0 评论 -
Facebook Bigdata - Presto 0.81 版本说明
Facebook Bigdata - Presto 0.81 版本说明 http://prestodb.io/docs/current/release/release-0.81.html翻译 2014-11-10 13:21:45 · 1105 阅读 · 0 评论 -
基于PostgreSQL的可扩展的开源大数据集群数据库:Postgres-XL
Postgres的-XL是一个基于PostgreSQL数据库的横向扩展开源SQL数据库集群,具有足够的灵活性来处理不同的数据库工作负载: OLTP 写频繁的业务 需要MPP并行性商业智能 操作数据存储 Key-value 存储 GIS的地理空间 混合业务工作环境 多租户服务提供商托管环境原创 2014-11-07 13:56:38 · 10580 阅读 · 1 评论 -
2014年大数据年终工作总结
今天是圣诞节,2014年马上要过去了。回顾这一年在大数据研发上的点点滴滴,总结如下三个方面:一、大数据研发技术路线 目前,存在太多的大数据技术,商业软件,如Teradata、Oracle、SAP、IBM等。开源的,如Hadoop、Spark、MPP DB、NewSQL等。在大数据领域,Hadoop呈一支独大势。经过这段时间的学习和了解,发现Hadoop技术复杂,架构复杂,社区版成熟度可能也就80%左右。要想把Hadoop玩转起来,可能需要投入巨大的成本来完善。Cloudera的CDH也仅原创 2014-12-25 10:20:35 · 7739 阅读 · 0 评论 -
一次惊心动魄的Percona XTRADB Cluster数据修复过程【MySQL】
一次惊心动魄的Percona XTRA Cluster DB数据修复过程 看后,让你不再担心MySQL难以修复。当然,最好提前做好MySQL HA方案。原创 2014-12-31 16:24:42 · 3970 阅读 · 0 评论 -
基于Calcite Elasticsearch实现的SQL ON ES方案设想
Elasticsearch是搜索的王者,其强大的DSL不让SQL,但缺少SQL的关键特性,如Join。ES的策略是紧紧拥抱Hadoop/Hive,Spark,有个ES-hadoop方案。Hadoop本身就很笨重,这和轻快的ES是背道而驰的。ES的主要方向目前还在搜索上,SQL也不是它的主要关注点。所以,可预见的一段时间内,SQL on ES只能通过开发或集成第三方软件来完成,如通过Presto或Drill的插件来实现。我们已经测试了Presto Elasticsearch Connector。我们认为,基于原创 2016-04-13 10:48:35 · 10669 阅读 · 5 评论 -
论big data 3.0取代SAP HANA的可行性
论big data 3.0取代SAP HANA的可行性 简言之,big data 3.0就是要实现SQL on big data,而且要兼顾性能、易用性和可扩展性。目前是“搜索引擎+大数据+SQL“这样一个融合为一体的趋势。本人参加过HANA培训,了解过SAP HANA实施项目,目睹了企业所经历的一个个坑,也很不认同SAP惟利是图的商业模式。但HANA的确是个好东西,就易用性来说就需要开源的大数据好好学习。HANA虽好,但太贵,开放性不好,扩展性是个大问题,不适合处理大数据;开源大数据,覆盖了80%HA原创 2016-06-14 14:05:47 · 1692 阅读 · 0 评论 -
Bigdata 3.0:Presto+Elasticsearch研发进展
Bigdata 3.0:Presto+Elasticsearch研发进展原创 2016-03-06 11:20:27 · 3927 阅读 · 3 评论 -
Spark的下一代引擎-Project Tungsten启示录:兼Presto、impala、spark性能根本比较
在过去的一年之中,我们一直在利用Spark做实时交互式分析系统方面的尝试,有兴趣的同学可以看一下我们之前分享的博客《基于Spark的用户分析系统》。我们在不断受到Spark启发的同时,也不得不忍受尚处于青春期的Spark性格中的叛逆。特别是在不断优化系统性能过程中,发现我们实际上是在做与Project Tungsten同样的工作。不知道是该庆幸选对了方向,还是该忧伤重复发明了轮子。尤其是在对比了Project Tungsten与我们自己的实现,心中五味杂陈。不过也正是由于重复发明轮子的过程,也让我们对Pro转载 2016-02-25 13:23:45 · 6025 阅读 · 0 评论 -
融合了大数据、搜索引擎及SQL的敏捷大数据方案bigdata 3.0:Presto+Elasticsearch
在bigdata 1.0时代,以hadoop为代表的大数据技术在企业数据仓库架构中起到的只是配角作用,只是完成数据批处理,处理好的数据还是放入传统的RDBMS中,由BI完成展示。这称为混合架构。对即时的数据流,提供了kafka+Storm的解决方案。既无法实现BI和bigdata的无缝对接,也无法进行流数据和大数据关联分析。这应该是一种不得已而为之的方案。 当很多用户刚开始对bigdata 1.0有所了解的时候,bigdata 2.0已经迅速到来。bigdata 2.0主要就是实现了SQL on bi原创 2016-02-11 21:08:58 · 10816 阅读 · 1 评论 -
ElasticSearch 2 - 深入搜索系列
对ElasticSearch 2的详细中文介绍,想深入研究ES的值得收藏。感谢作者:Richaaaard转自:http://www.cnblogs.com/richaaaard/default.html?page=1转载 2016-03-06 11:32:10 · 1147 阅读 · 0 评论 -
中小企业的大数据技术路线选择(二)-Cassandra+Presto方案
我前面曾经写过:中小企业的大数据技术路线选择 和 低调、奢华、有内涵的敏捷式大数据方案:Flume+Cassandra+Presto+SpagoBI 。前面用两个月的时间验证了Presto JDBC驱动、Prestogres和SHIB三种方案。Prestogres,可以使用PostgreSQL 客户端和JDBC驱动,支持SpagoBI等BI工具。但这种方式架构复杂,可能有性能瓶颈,无法发挥该方案的优势。SHIB现在代码量较小,在Team中有报表开发经验的成员即可上手。如果时间和人力允许,开发一个轻量级的Bi原创 2015-03-16 14:21:49 · 3803 阅读 · 2 评论 -
Presto实现原理和美团的使用实践
Presto实现原理和美团的使用实践 转载自:http://tech.meituan.com/presto.html木叶丸 本文已发表在《程序员》2014.6月刊2014-06-16 10:45Facebook的数据仓库存储在少量大型Hadoop/HDFS集群。Hive是Facebook在几年前专为Hadoop打造的一款数据仓库工具。在以前,Facebook的科学家和分析师转载 2015-01-05 14:09:32 · 1762 阅读 · 0 评论 -
Mysql上的RAC:Percona XtraDB Cluster负载均衡集群安装部署手册
Keepalived LVS mysql集群 Percona xtradb cluster 负载均衡原创 2014-07-03 21:32:10 · 6410 阅读 · 5 评论 -
percona XTRADB Cluster 5.6在ubuntu安装
Percona XTRADB Cluster 5.6在Ubuntu Server 14.04上的安装文档,参考了官方安装文档和国外网友的安装记录才安装成功。确保可以安装成功。原创 2014-05-09 20:46:50 · 2742 阅读 · 0 评论 -
perconaXTRADB Cluster在Redhat Linux上的安装
installing-percona XTRADB Cluster 5.6For Redhat 6.4一、 服务器版本查看Root# cat /etc/redhat-release Red Hat Enterprise Linux Server release 6.4 (Santiago)二、 新建目录:Root#mkdir -p /softwares三、 下载RPM包1、下载XTRADB Cluster包2、下载XTRABACKUP包四、 安装依赖包1、 安装包准备2、 安原创 2014-05-09 20:38:09 · 3010 阅读 · 0 评论 -
从MOLAP、ROLAP、HOLAP到NOSQL OLAP
从传统理论来看,OLAP分为MOLAP、ROLAP和HOLAP,NOSQL OLAP还没有被提及,却也隐约可见。本文先从传统OLAP说起。 OLAP曾经作为数据仓库经典用例用来演示数据仓库的神奇之处,近来却几乎被遗忘了。从OLAP的发展来看,先是独树一帜的MOLAP,但很很不幸,用户体验并不好。OLAP模型设计有很多限制,性能低下,投资高昂,做不到无缝集成,最终被用户放弃,海波龙也原创 2011-12-11 20:45:01 · 3032 阅读 · 1 评论 -
移动电子商务点击流参数文档- 手机埋点设计
1. 参数概述 在无线互联网开发中,服务器端能够自动获取并识别用户的手机机型、手机浏览器型号、手机号码、IMEI号等几个关键参数,对于提升用户体验、简化用户交互操作以及进行所谓的精准式营销等具有很重要的意义。 与此相关的几个典型的应用场景:Ø 用原创 2011-10-07 12:23:34 · 3479 阅读 · 0 评论 -
《DW2.0下一代数据仓库的构架》研读心得
2008年的时候就看过这本书的介绍,今天借到中文版,可以好好研读一下了。一、“真正的”数据仓库 DW2.0中,作者认为数据仓库很快演变为一个被称为企业信息工厂的架构。包括:源系统、ODS、ETL、企业数据仓库、数据集市和探索仓库等组件。这一点基本上还是DW中原创 2011-08-14 21:02:57 · 1574 阅读 · 0 评论 -
淘宝数据魔方技术架构解析
淘宝数据魔方技术架构解析 淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物转载 2011-08-08 13:28:29 · 1265 阅读 · 0 评论 -
内存云- 一个伪命题!
前几天,在csdn上看到了内存云的文章。初看,感觉挺新颖的,再仔细看,发现这是个噱头。文中,作者提出在内存中实现文件系统,以此实现HDFS的分布式文件系统。其实,在DOS时代已经有了ramdisk这个命令,即是把内存虚拟成硬盘。以下引用自内存文件系统使用及示例LINUX下我所原创 2011-08-04 13:55:04 · 1980 阅读 · 3 评论 -
GFS故障解决
一、问题描述 之前,两台数据库服务器安装了两个实例,共享磁盘阵列,通过ASM管理,(日志文件和控制文件等)通过GFS实现共享存储文件同步。系统工作正常,某天加入第三个节点时失败,集群正常使用就没再管它。某日,数据库异常,重启操作系统后,GFS集群故障,无法启动,如下原创 2011-08-01 14:46:44 · 2528 阅读 · 0 评论 -
物联网应用协议
在物联网项目中,汇聚节点既是数据采集节点,也是实现业务规则和远程控制的节点。为了实现对传感数据的采集和控制,必须定义应用协议。应用协议分为四个部分,基本可以涵盖物联网全业务范围的借口需求。如下:1、事件 对采集到的数据,按照业务规则进行检查,超过一定阀值原创 2011-07-06 14:07:38 · 871 阅读 · 0 评论 -
存储共享文件系统需求
存储访问需求 一、存储访问示意图:图表 1 存储访问关系示意图注:ore01和ore02服务器,数据库系统安装在本地硬盘,表空间和数据文件(采用ASM管理)建在数据库LUN上,控制文件、联机日志和归档日志存在本地硬盘上。 二、 问题说明因为存储文件系统数据同步有问题,ore01、ore02数据库redo文件和控制文件只能存在本地硬盘上。这样ore01和ore原创 2011-06-28 16:42:00 · 1162 阅读 · 0 评论 -
Greenplum优化实战
GP优化方案 一、 参数调整1、块I/O参数1)参数描述此参数用来设置块设备参数。2)现参数:现没有设置块I/O参数。3)加入参数:#vi /etc/rc.d/rc.local blockdev --setra 16384 /dev/sdb注:master、standby节点不需修改。2、I/O调度算法 由于数据仓库属于IO敏感性应用原创 2011-11-20 22:01:58 · 7370 阅读 · 0 评论 -
融合数据仓库:数据仓库、时空数据仓库、语义数据仓库
这些年,随着电子商务的发展,数据仓库已经愈来愈深入人心了。本文想从时空和语义角度来探讨下融合数据仓库。融合数据仓库是在传统数据仓库之上的,支持时空和语义数据存储和分析的数据仓库。相对于传统的数据仓库,存储的是精确的时间和位置信息及描述性事实(如地图服务中的POI)。此外,需要提供语义引擎,提供本体、分词、推理等语义操作。 融合数据仓库的提出主要是为了适应LBS(如POI)和语义挖原创 2011-12-11 20:47:24 · 2368 阅读 · 1 评论 -
外贸B2C网站架构升级-从单服务器到服务器集群
最近,帮朋友把网站架构调整了一下,从单服务器调整到5台服务器集群。朋友的网站是做外贸女装B2C的,前面租用的亚马逊的云主机。系统架构如下: 这样的系统架构,不支持负载均衡、HA和可扩展性。亚马逊云主机内部流量带宽有限制,并算入资费流量。因此,准备改用如下架构: 采用的softlayer的服务器,构建Web服务器集群,实现负载均衡和HA;DB采用Mysql+DRBD+Ke原创 2012-06-06 14:52:54 · 2303 阅读 · 1 评论 -
移动基于Percona XTRADB Cluster的大数据解决方案
最近因为“棱镜门”事件的曝光,引起了国家对信息安全问题的注意,各大行业也开展起来去“IOE”的行动。对移动而言, 一方面是对信息安全的担心,另一方面是对降低成本的考量,对开源体系架构的引入也成为一种现实的方案。 在互联网行业,MySQL的使用成为主流,但随着Oracle对Sun的收购,MySQL的控制权落入Oracle手中,对MySQL可能闭源的风险也成为业界的共识。 由此,产生了各种MySQL的分支。本文主要对其中的PerconaXtraDB进行了分析。原创 2014-05-16 16:38:04 · 10973 阅读 · 2 评论 -
BI路上请慎重
转自:http://www.ciotimes.com/bi/bzjgd/201008021612.htmlBI路上请慎重2010-08-02 15:47:19摘要: 很多用户看到BI应用成功的案例屈指可数,于是就对BI应用失去了信心。其实,一些误区的存在是导致BI项目失败或达不到预期效果的原因所在,也正因为这些误区我们对用户建设BI系统提出 关键词: 业务驱转载 2013-09-04 14:14:24 · 1191 阅读 · 1 评论 -
浅谈伪分布式数据库架构
转自:http://www.uml.org.cn/zjjs/201207312.asp作者:Eugene ,发布于2012-7-31 大家上午好!很多公司都在开发自己的分布式数据库架构,且不少公司都可能使用上了,也有很多人在讲分布式数据库架构,这些是真正意义上的分布式数据库吗?若要我加一个词的话, 我一般说伪分转载 2013-08-13 14:18:13 · 1801 阅读 · 0 评论 -
实时数据分析平台、大数据分析、MPP数据仓库 - vertica (二)实时加载 & 查询
今天,世界各地的信息是连续产生的。因此,隔夜批量加载数据已经成为奢侈的过去。组织必须能够不停顿地加载到信息到他们的分析平台,同时允许进行数据丰富的分析。 信息的时间价值是非常重要的,在数据产生后,用户越早处理就越有价值。对于零售商来说,这可能意味着即时的促销和库存的摆放。对于金融公司,这会影响到及时的交易决策。对于网络游戏公司,这提供了更加个性化和引人入胜的游戏体验。这个最小延迟的翻译 2012-10-12 20:16:26 · 5099 阅读 · 0 评论 -
使用Outlook Express在外贸B2C进行个性化邮件群发
转自:百度知道 http://zhidao.baidu.com/question/213340911.html编者按:email是外贸B2C主要的沟通手段和营销方式,而个性化的群发邮件以往只能由人工来完成。采用软件实现个性化群发邮件可以极大提高工作效率,对外贸B2C这种劳动密集型企业尤其有意义。 群发邮件不是什么新鲜事,但怎么个性化群发邮件,却也是比较实用的东西。广交会到了,忙着发邀请转载 2012-06-14 17:27:08 · 2635 阅读 · 0 评论 -
从DDOS说起:最优的服务器集群方案-PaceMaker
PaceMaker网址:http://www.clusterlabs.org/ 前面一个客户说他们网站遇到了DDOS CC攻击,所以在新网站架构上就特别强调这个问题。我们原来的设计的方案如下: 这样Web负载均衡方案不能使用LVS、和IDC服务商的本地均衡服务了。LVS对网络环境要求太严苛,HAProxy流量集中在一台服务器上,达不到负载均衡的目的。为了抵原创 2012-06-06 17:34:57 · 2636 阅读 · 0 评论