大数据技术与系统
文章平均质量分 51
白乔
这个作者很懒,什么都没留下…
展开
-
科学数据中心软件栈FairStack
FairStack面向科学数据中心在科学数据全生命周期管理中的共性需求,提供科学数据汇聚、管理、分析、共享全流程服务以及安全防护等支撑保障,致力于推进科学数据中心的FAIR化(可发现Findable、可访问Accessible、可互操作Interoperable、可重用Reusable)。面向机构科研团队的数据公开发布需求,提供科学数据发布审核、资源发现、资源访问和用户支持等核心功能服务,通过构建科学数据中心标准化服务接口,实现多元数据的互操作,并实现数据资源唯一标识(DOI,CSTR)。转载 2022-11-25 14:26:15 · 499 阅读 · 0 评论 -
腾讯海量数据处理平台TDW
TDW是腾讯海量数据处理平台中最核心的模块,它有以下几个作用:提供海量的离线计算和存储服务。TDW是腾讯内部规模最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖掘等的存储和计算都是在TDW中进行。这是TDW提供的最基础的服务。数据集中于共享功能。腾讯产品线较长,数据丰富,为了挖掘数据价值,经常需要访问多个产品的数据。TDW是腾讯公司级的数据仓库,这里转载 2014-06-14 21:19:11 · 2031 阅读 · 0 评论 -
[ 大数据分析 ] 大数据分析与处理方法介绍
从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?转载 2014-05-14 13:21:21 · 9845 阅读 · 1 评论 -
面向海量服务的设计原则和策略总结
http://www.blogjava.net/caizh2009/archive/2010/05/28/322167.html转载 2014-07-05 21:56:33 · 1154 阅读 · 0 评论 -
大型电子商务网站架构之--分布式可扩展数据库架构
http://liriguang.iteye.com/blog/714728近几年分布式成为热门的话题,也成为大型系统必备良药,而在数据库方面应用更加广泛。通过采用普通廉价的设备构建出高可用性和高扩展的集群目的。从而摆脱了大型设备的依赖,一个好的分布式数据库架构可以比较方便达到高可用性有可以达到向外扩展的能力。传统的数据库系统一般是通过高端设备,例如小型机或者高端存储来保证数据库完整性,或转载 2014-07-23 13:38:54 · 1360 阅读 · 0 评论 -
浅谈数据库的分割技术
随着社会的日益进步, 各行业的运营支撑系统都面临着越来越大的压力, 承受着业务数 据量、访问并发数的飞速增长的双重巨大压力,在我们电信行业,同样面临着这样的难题, 是否有一套适合可行的方案来应对呢?本文重点描述数据库的分割技术, 如果能适当的应用在生产中, 必然能极大减缓来自与 日俱增的业务量带来的巨大压力。如何分割?我们可以从如下六个方面来考虑:一、读写分离分布技术由于数据库存在转载 2014-05-07 23:08:20 · 1058 阅读 · 0 评论 -
数据库sharding(scale up to scale out)
sharding是将一个大数据库按照一定规则拆分成多个小数据库的一门技术.当我们的应用数据量越来越多,访问量越来越大的时候,我们会作何选择?继续提升数据库服务器的性能还是采用一项技术让数据库平滑扩展?虽然伴随着服务器的更新换代,性能越来越好,更换更加豪华的服务器能暂时解决这个问题,但是无论是从花费和可控都无法让人满意。这时数据库sharding是一个更加可行的方案。常用的shard转载 2014-03-05 20:52:42 · 1642 阅读 · 0 评论 -
几种RAID技术比较
RAID(廉价磁盘冗余阵列)技术主要是为了改善磁盘的访问延迟,增强磁盘的可用性和容错能力。目前服务器级别的计算机都支持插入多块磁盘(8块或者更多),通过使用RAID技术,实现数据在多块磁盘上的并发读写和数据备份。常用RAID技术有以下几种,如图4.22所示。假设服务器有N块磁盘。RAID0数据在从内存缓冲区写入磁盘时,根据磁盘数量将数据分成N份,这些数据同时并发写入N块磁盘,使转载 2014-10-26 09:16:36 · 5471 阅读 · 0 评论 -
在数据库历史上最重要的人物简介
http://www.eygle.com/digest/2010/03/database_person.html 埃德加·考特(EdgarF.Codd) 计算机界公认的关系数据库之父。1970年他提出了关系模型的理论,1970年以后,E.F.Codd继续完善和发展关系理论;之后创办了一个研究所The RelationalInstitute和一个公司Codd & Associ转载 2014-09-26 17:45:25 · 3625 阅读 · 0 评论 -
MySQL主从复制配置
http://www.blogjava.net/dongbule/archive/2010/08/22/329602.htmlMysql的主从复制至少是需要两个Mysql的服务,当然Mysql的服务是可以分布在不同的服务器上,也可以在一台服务器上启动多个服务。(1)首先确保主从服务器上的Mysql版本相同(2)在主服务器上,设置一个从数据库的账户,使用REPLICATION转载 2014-07-04 15:23:12 · 891 阅读 · 0 评论 -
sparkSQL1.1入门
http://blog.csdn.net/book_mmicky/article/details/39288715转载 2014-11-18 15:47:15 · 21428 阅读 · 1 评论 -
Spark与Hadoop计算模型的比较分析
http://tech.it168.com/a2012/0401/1333/000001333287.shtml 最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都在研究和使用它。 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。 那么Spark和Hadoop有什么不同呢? 1.Spa转载 2014-11-20 13:32:37 · 1828 阅读 · 0 评论 -
搭建高可用的MongoDB集群
http://www.csdn.net/article/2014-04-09/2819221-build-high-avialable-mongodb-cluster-part-1/1转载 2014-11-20 15:49:05 · 4270 阅读 · 0 评论 -
Hadoop基于Protocol Buffer的RPC实现代码分析-Server端
http://yanbohappy.sinaapp.com/?p=110最新版本的Hadoop代码中已经默认了Protocol buffer(以下简称PB,http://code.google.com/p/protobuf/)作为RPC的默认实现,原来的WritableRpcEngine已经被淘汰了。来自cloudera的Aaron T. Myers在邮件中这样说的“since P转载 2014-11-21 09:17:06 · 2147 阅读 · 0 评论 -
Mongodb集群节点故障恢复场景分析
http://blog.csdn.net/zhangzhaokun/article/details/6299527一个适当配置的Mongodb分片集群是没有单点故障。本文描述了分片集群中存在的几种不同的潜在的节点故障场景,以及Mongodb对这些节点故障是怎么处理的。1、Mongos节点宕机一个Mongos进程应该运行在每一个应用程序服务器上,这个服务器应该独占这个Mongos进程转载 2014-11-21 22:21:04 · 1384 阅读 · 0 评论 -
Spark:用Scala和Java实现WordCount
http://www.cnblogs.com/byrhuangqiang/p/4017725.html为了在IDEA中编写scala,今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀,学会之后,用起来很顺手。关于如何搭建scala和IDEA开发环境,请看文末的参考资料。用Scala和Java实现WordCount,其中Java实现的JavaWordCount是spar转载 2014-11-27 22:37:25 · 96548 阅读 · 3 评论 -
收藏2个mongodb connector网址
https://github.com/plaa/mongo-sparkhttps://github.com/mongodb/mongo-hadoophttp://codeforhire.com/2014/02/18/using-spark-with-mongodb/原创 2014-11-27 22:51:15 · 1280 阅读 · 0 评论 -
HDFS之SequenceFile和MapFile
http://blog.csdn.net/javaman_chen/article/details/7241087Hadoop的HDFS和MapReduce子框架主要是针对大数据文件来设计的,在小文件的处理上不但效率低下,而且十分消耗内存资源(每一个小文件占用一个Block,每一个block的元数据都存储在namenode的内存里)。解决办法通常是选择一个容器,将这些小文件组织起来统一转载 2014-11-27 22:58:34 · 1094 阅读 · 0 评论 -
最新版spark1.1.0集群安装配置
和分布式文件系统和NoSQL数据库相比而言,spark集群的安装配置还算是比较简单的原创 2014-11-22 23:01:16 · 4527 阅读 · 1 评论 -
理解Spark的RDD
RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。RDD是只读的,不可变的数据集。RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录之前的依赖关系,依赖关系中记录算原创 2014-11-23 20:57:54 · 37414 阅读 · 1 评论 -
hadoop-2.5安装与配置
安装之前准备4台机器:bluejoe0,原创 2014-11-24 15:54:07 · 5519 阅读 · 1 评论 -
hadoop的mapreduce过程
http://www.cnblogs.com/sharpxiajun/p/3151395.html转载 2014-11-23 15:14:08 · 1171 阅读 · 0 评论 -
spark1.1.0下使用SparkSQL
spark1.1.0的安装参见http://blog.csdn.net/bluejoe2000/article/details/41391407安装了spark之后,key原创 2014-11-23 18:14:30 · 5227 阅读 · 0 评论 -
gluster 安装配置基本指南
gluster安装1、 rpm安装wget -l 1 -nd -nc -r -A.rpm http://download.gluster.org/pub/gluster/glusterfs/LATEST/RHEL/epel-6/x86_64/yum install glusterfs-libs-3.5.2-1.el6.x86_64.rpm glusterfs-api-3.5.2-1转载 2014-10-25 23:35:56 · 13312 阅读 · 0 评论 -
Pig与Hive的区别
http://myeyeofjava.iteye.com/blog/1601792Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义(如日志文件)。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDF转载 2014-11-25 08:53:34 · 5164 阅读 · 0 评论 -
Hadoop MapReduceV2(Yarn) 框架简介
http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/转载 2014-11-24 22:58:41 · 1280 阅读 · 0 评论 -
hadoop mapreduce 优化
http://www.cnblogs.com/c840136/archive/2013/03/10/2952887.html转载 2014-11-25 09:49:29 · 957 阅读 · 0 评论 -
理解hadoop的Map-Reduce数据流(data flow)
http://blog.csdn.net/yclzh0522/article/details/6859778Map-Reduce的处理过程主要涉及以下四个部分:客户端Client:用于提交Map-reduce任务jobJobTracker:协调整个job的运行,其为一个Java进程,其main class为JobTrackerTaskTracker:运行此job的task,转载 2014-11-24 21:47:26 · 1787 阅读 · 0 评论 -
Spark1.2新特性概述
http://mp.weixin.qq.com/s?__biz=MjM5NTc2MTg3Mw==&mid=201641685&idx=1&sn=1b75be3d774bb3f26b6714674dbefc64&scene=2&from=timeline&isappinstalled=0#rd1.2居然真的在12月份发布了,我表示略感意外,我一直以为稍微跳个票要到明年一月初才能发的。这次更新有172转载 2014-12-20 21:56:48 · 1191 阅读 · 0 评论 -
淘宝海量数据产品技术架构
http://blog.csdn.net/paulluo0739/article/details/7656466 淘宝数据魔方技术架构解析淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品转载 2014-12-24 17:17:09 · 1683 阅读 · 0 评论 -
MySQL引擎
http://www.cnblogs.com/sopc-mc/archive/2011/11/01/2232212.html转载 2014-11-16 20:42:54 · 798 阅读 · 0 评论 -
使用Spring Data来操作MongoDB
http://www.open-open.com/lib/view/open1342877356974.html MongoDB 是一个可扩展的、高性能的、开源的NoSQL数据库,跟传统的数据库不一样,MongoDB并不是将数据存储在表中,他将数据结构化为一个类似于JSON的文档中。这篇文章就是展示如何使用Java基于MongoDB和Spring Data创建一个CRUD应用。 Spring D转载 2014-12-26 08:43:20 · 12593 阅读 · 0 评论 -
Spark技术内幕:Client,Master和Worker 通信源码解析
http://blog.csdn.net/anzhsoft/article/details/30802603转载 2014-11-24 22:56:58 · 1643 阅读 · 0 评论 -
Spark技术内幕:Stage划分及提交源码分析
http://blog.csdn.net/anzhsoft/article/details/39859463当触发一个RDD的action后,以count为例,调用关系如下:org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#runJoborg.apache.spark.scheduler.DAGSch转载 2014-11-24 22:55:19 · 6636 阅读 · 1 评论 -
Hadoop源代码分析
http://wenku.baidu.com/link?url=R-QoZXhc918qoO0BX6eXI9_uPU75whF62vFFUBIR-7c5XAYUVxDRX5Rs6QZR9hrBnUdMdVHNSHdjYtv7i28lCSng1iuWO620ML_wqJZYFge转载 2014-11-21 21:41:52 · 1752 阅读 · 0 评论 -
Spark Shuffle实现
http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/对于大数据计算框架而言,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Spark的shuffle实现,并将之与MapReduce进行简单对比。本文的介绍顺序是:shuffle基本概念,MapReduce Shuffle发展史以及Spa转载 2015-03-06 10:24:22 · 1741 阅读 · 0 评论 -
大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合
http://www.aboutyun.com/thread-6855-1-1.html个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm和什么技术搭配,才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读本文章:1.一转载 2015-03-06 15:44:14 · 1993 阅读 · 0 评论 -
Memcached 工作原理
http://hzp.iteye.com/blog/1872664Memcached处理的原子是每一个(key,value)对(以下简称kv对),key会通过一个hash算法转化成hash-key,便于查找、对比以及做到尽可能的散列。同时,memcached用的是一个二级散列,通过一张大hash表来维护。Memcached有两个核心组件组成:服务端(ms)和客户端(mc),在一个memcached转载 2015-03-26 09:39:03 · 893 阅读 · 0 评论 -
学习GraphX
首先准备如下社交图形数据:打开spark-shell;导入相关包:import org.apache.spark._import org.apache.spark.graphx._import org.apache.spark.rdd.RDD创建如上graph对象:// Create an RDD for the verticesval users: RDD[(VertexId, (Stri原创 2015-03-16 16:50:46 · 3010 阅读 · 1 评论 -
akka构建简单分布式应用
http://www.cnblogs.com/hequn/articles/3764630.html当程序的要求达到一台计算机的极限时,我们便需要将程序分布式化,让程序运行在多台计算机上。akka提供了remote actor用来构建分布式应用。一、remote actor1.Actor path actor的路径设计采用了类似URL的形式,即scheme://domain:port/path。转载 2015-03-26 18:06:37 · 11667 阅读 · 2 评论