自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

转载 Cassandra与HBase的大数据对决 谁是胜者?

众多基于Bigtable技术的开源项目正在通过不同的方式实现高扩展性、高灵活性、分布式及宽列数据存储等功能,Cassandra和HBase就是其中的代表。在大数据这一全新的领域里,Bigtable数据库技术非常值得我们关注,因为这一技术是由谷歌的工程发明的,而谷歌是一家公认的非常擅长管理海量数据的公司。如果你对此非常了解,那么你一定知道也熟悉Cassandra和HBase这两个Apache数据

2014-04-22 14:25:43 2232

转载 【实战案例】微软网络犯罪防范中心:大数据抓出恶意攻击和盗版

大数据说起来很玄乎,但是就是它帮着微软网络犯罪防范中心揪出了恶意软件发起者和盗版软件商。今日,CNET记者参观了微软网络犯罪防范中心(Microsoft Cybercrime Center),这是一个让人感觉科技感十足的实验室,在这里可以直观地看到全球安全威胁、恶意软件、盗版等现状,还会了解到微软在防范数字犯罪方面所做出的努力。图:微软网络犯罪防范中心(Microsoft Cybercri

2014-04-21 17:02:55 1443

转载 六个超大规模Hadoop部署案例

虽然Hadoop是眼下热闹非凡的大数据领域最热话题,但它肯定不是可以解决数据中心和数据管理方面所有难题的灵丹妙药。考虑到这一点,我们暂且不想猜测这个平台未来会如何,也不想猜测各种数据密集型解决方案的开源技术未来会如何,而是关注让Hadoop越来越火的实际应用案例。案例之一:eBay的Hadoop环境eBay分析平台开发小组的Anil Madan讨论了这家拍卖行业的巨擘在如何充分发挥Hado

2014-04-14 10:32:27 777

转载 企业如何布局和提升大数据能力

大数据作为现在最流行的一个方向,被很多的企业重视。那么如何提升企业的大数据能力,以发掘出它最大的价值呢?您可以从本文中找到答案。        一个成年人平均每天做出70个有意识的决定,一年就要做出超过25000个决定。企业的大部分决定是不重要的,但这其中会有一些决定给企业带来重大的机遇或者严重的后果。企业无法避免做出坏的决定,但是可以通过提升数据和分析能力降低做出坏决定的概率。     

2014-04-11 17:28:21 882

转载 怎样从10亿查询词找出出现频率最高的10个

1. 问题描述在大规模数据处理中,常遇到的一类问题是,在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎中,统计搜索最热门的10个查询词;在歌曲库中统计下载率最高的前10首歌等等。2. 当前解决方案针对top k类问题,通常比较好的方案是【分治+trie树/hash+小顶堆】,即先将数据集按照has

2014-04-11 17:06:44 1351

转载 超级牛人在华为工作十年的感悟

徐家骏是华为数据中心的头,技术超级牛人,一级部门总监,华为副总裁,年收入过千万。从一个应届毕业生,到年薪千万的华为副总裁,再到离开华为转战百度,徐家骏的十年从业经历和经验对于今年的应届毕业生来说绝对可资借鉴,我们从中也可以一窥华为公司的运作过程和徐的职业规划。世界上本没有好工作,下的功夫够了,好工作自会找上门的。上周,我正式提交了离职报告,准备给自己的职业生涯一个很大的转折,这是我长时间的

2014-04-11 16:36:22 1330 1

转载 企业如何更好地制定大数据策略

大数据策略会失败吗?是时候该讨论一下这个问题了。企业才刚刚掌握如何集成ERP(企业资源规划)及其他业务应用来消除业务流程中妨碍效率的孤岛。面向服务架构、软件即服务、云计算及其他现代化解决方案在协助企业实现大型应用集成过程中都发挥了一定的作用。但是如今,在大量数据的环境中组织正面临新的一系列挑战。更清楚地说,它不是一条数据流。它是由许多独立的数据流组成的,使数据互相分离或者就像以前的企业应用那样将孤

2014-04-10 14:19:10 738

转载 与富为邻

不同的家庭出身,不同的文化背景,不同的行业岗位,决定了我们最初的生活圈子。我认识这样一对来自安徽农村的夫妻,十多年前就带着年幼的儿子来苏南讨生活,每天起早贪黑地卖点心,一个月的利润也就千把块钱。尽管经济上捉襟见肘,但他们过着与其他外地小商贩不同的生活,市中心的住宅房租并不便宜,夫妻俩偏要租住这样的房子,他们还交了一笔不菲的借读费,将儿子送进重点小学念书。街坊邻居全是中产阶级,出入衣着光鲜,

2014-04-04 10:47:42 506

转载 大数据时代你不得不了解的大数据处理工具

如今Apache Hadoop已成为大数据行业发展背后的驱动力。Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper、Flume)。  Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化、非结构化等)的能力。但这与之前有什么不同?  现今企业数据仓库和关系型数据库擅

2014-04-03 16:49:17 797

转载 切勿妄谈Hadoop,以及4个数据管道打造实践

时至今日,大数据这个概念已充斥了整个IT界,各种“搭载”了大数据技术的产品,各种用于处理大数据工具更如雨后的春笋触目皆是。同时,如果某个产品还没抱上大数据的大腿,如果某个机构还没捣鼓过基于Hadoop、Spark、Impala、Storm等高大上的工具,更会予以过时黄花的评价。然而,你的数据量真的需要使用Hadoop这样工具吗?你业务处理的数据类型真的需要大数据技术来支撑吗?        文

2014-04-02 14:39:43 706

转载 同步的与异步的,不同大数据分析的存储选择

目前市场上有两种类型的大数据分析方式——同步的和异步的,两种都有各自在存储容量和特性上的要求。        近来大数据分析这个词正逐渐成为IT界流行的一个术语,以代指有关大数据本身的猜想,通俗说来即成堆数据背后问题的答案。然而,如果我们能够从足够的数据点入手比对及交叉分析,或许能帮助我们找到一些有用的数据,甚至可能帮助避免灾难。        问题是显而易见的,所有的分析都需要大量甚至海

2014-04-01 16:26:44 1759

转载 马云与四大行支付战争全篇解读

中华浔:有故事的还原文章,虽然,这场大战的背后原因,很多很多。能够从一个角度来解读这场大战,很精彩。这是一场注定要开打的战争。当去年“双十一”淘宝成交额突破350亿元,快捷支付占55%、余额支付占20%、网银支付仅占13%的格局既定之时,互联网金融与银行业的这场“战争”就无可避免了。一家国有银行的人士愤愤然:他们在赢得了利益之后,还要不忘踩我们一脚,我们

2014-04-01 14:14:55 1732

转载 首席工程师揭秘:LinkedIn大数据后台是如何运作的?

本文作者:Jay Kreps,linkedin公司首席工程师;文章来自于他在linkedin上的分享;原文标题:The Log: What every software engineer should know about real-time data’s unifying abstraction。文章内容非常干货,非常值得学习。文章将以四部分进行阐述,建议大家耐心看完。第一部

2014-03-28 13:47:57 1370

转载 IBM在大数据时代的“新打法”

自“大数据”词汇诞生,“大数据是什么”、“大数据的核心价值是什么?”、“又怎样才能充分利用好大数据?”成为被问及最多的问题。经过短短数年发展,传统IT厂商各自加快了向大数据转型的脚步,也分别有了对于大数据的诠释。那么,对于IBM这家百年老店来说,在全新的大数据时代又有了哪些转变?  我们会在科幻电影中看到这样的桥段:hi,麦克(智能电脑的名字),告诉我去A大厦最短的路程该怎么走…hi,告诉我应

2014-03-28 10:03:31 783

转载 宽表和窄表的建设该如何选择

宽表和窄表的建设该如何选择?这个问题相信纠结了很多从是数据库开发、数据仓库开发和后台开发人员;单单考虑这个问题,难给出一个绝对的答案;本人从事数据仓库开发工作到现在已经有一年半时间了,对于这个问题,我也曾经纠结过,但是是否有绝对的答案呢?事实上任何东西都没有绝对的说法。考虑这样的一个问题,一个公司有这样的一个需求:设计销售领域的订单事实表,该事实表应该包含哪些维度和度量?事

2014-03-27 16:28:12 9559

转载 Spark,一种款速数据分析替代方案之下篇

安装 Scala 和 Spark第一步是下载和配置 Scala。清单 4 中显示的命令阐述了 Scala 安装的下载和准备工作。使用 Scala v2.8,因为这是经过证实的 Spark 所需的版本。清单 4. 安装 Scala要使 Scala 可视化,请将下列行添加至您的 .bashrc 中(如果您正使用 Bash 作为 shell):接着可以对您的安装进行测试,

2014-03-27 16:17:10 791

转载 大数据分析平台的搭建部署案例分享

以下为原文:  夜深了,电话铃声响起!这不是恐怖片的开头,却是我们工作的开始。  2013年5月,我们收到一个电话线索,客户需要支持几十亿数据量的实时查询与分析,包括数据抓取和存储,我们经过一番努力提出一个解决方案,客户觉得有些不妥,决定自己招聘Hadoop团队,实施该系统……  半个月后,客户打来第二个电话,明确表示Hadoop未能满足实时大数据分析的需求,决定接受我们的方案,但是客

2014-03-27 16:10:07 4360

转载 关于用户行为类大数据计算

用户行为类数据是最常见的大数据形式,比如电信的通话记录、网站的访问日志、应用商店的app下载记录、银行的账户信息、机顶盒的观看记录、股票的交易记录、保险业的保单信息,连锁超市会员的购物信息、交通违法信息、医疗就诊记录。用户行为类数据的特点在于用户数量庞大,但每个用户的行为数量较小,针对用户行为的计算较为复杂,用户之间的关联计算相对较少。用户数量庞大。通话记录中的电话号码、访问日志中的用户编

2014-03-27 16:08:50 1314

转载 成功路上并不拥挤,因为坚持的人不多

一、成功路上需要选择,但会选择的人不多:太多人是因为别人和他说了,这个行业不错,这个行业,挺赚钱的,很多人因此而进入了一个行业,或者叫进入了某家公司,开始运作属于他的事业,孰不知,这个是你本人的选择吗,你知道如何选择吗?成功路上,很大一部分跟风者,因此被淘汰,成为行业过客。成功路上,这部分人直接被刷掉了。二、成功需要贵人指引,但有导师的人不多:很多人之所以没有成功,不知道如何去做,不知

2014-03-27 16:06:36 742

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除