- 博客(14)
- 资源 (7)
- 收藏
- 关注
原创 Spark入门到精通视频学习资料--第四章:基于Spark的流处理框架Spark Streaming(2讲)
随着大数据的发展,人们对大数据的处理要求也越来越高,原有的批处理框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,如实时推荐、用户行为分析等。 Spark Streaming是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。 本文将详细介绍 Spark Streaming 实时计算框架的原理与特点、适用
2015-02-28 12:53:05 3627
原创 Spark入门到精通视频学习资料--第三章:Spark进阶(2讲)
掌握Spark内核是精通Spark的关键,也是驾驭Spark的精髓所在。基于Spark内核,Spark构建起了一体化多元化的大数据处理流水线,在一个技术堆栈中即可以同时完成批处理、实时流处理、交互式查询、机器学习、图计算以及这些子框架之间数据和RDD算子的无缝共享与互操作。可以说,Spark内核是每个想彻底掌握Spark的人员的必修课,通过对内核的探索,我们对整个Spark的运行机制会了如
2015-02-28 12:40:05 3312 1
转载 如何知道一个大数据解决方案是否适合您的组织
作者:Divakar Mysore,Shrikant Khupat,Shweta Jain 来源:IBM 发布于:2014-12-10简介在确定投资大数据解决方案之前,评估可用于分析的数据;通过分析这些数据而获得的洞察;以及可用于定义、设计、创建和部署大数据平台的资源。询问正确的问题是一个不错的起点。使用本文中的问题将指导您完成调查。答案将揭示该数据和您尝试解决的问题的更多特征
2015-02-27 10:04:00 1398
转载 银行影像内容大数据系统设计与实例问题分析
第一部分:设计篇前言本文是对使用 IBM 内容管理系统为平台的广东农信银行客户后督系统的分析和介绍,以及对大数据量和高吞吐的基于 DB2 数据库的 IBM Content Manager 系统的一些设计上的分析以及一些实际问题的解决,系统在调优后性能和吞吐量满足的客户的需求,可以作为类似系统的参考,但是要注意,每一个系统都有自己独特的需求和实际情况,本文无法涵盖您在系统建设过程
2015-02-27 09:12:36 4892
原创 Spark入门到精通视频学习资料--第二章:Spark生态系统介绍,Spark整体概述与Spark编程模型(2讲)
概述什么是Spark◆ Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭
2015-02-26 13:58:08 1893
转载 如何用大数据炒股
比传统量化投资更为强大的是,大数据投资在原有金融结构化数据基础上,增加了更多非结构化数据,把握市场情绪,量化成为投资选股策略。我们如今生活在一个数据爆炸的世界里。百度每天响应超过60亿次的搜索请求,日处理数据超过100PB,相当于6000多座中国国家图书馆的书籍信息量总和。新浪微博每天都会发布上亿条微博。在荒无人烟的郊外,暗藏着无数大公司的信息存储中心,24小时夜以继日地运转着
2015-02-16 16:55:09 2380
转载 大数据"可视化"案例:360"骗子地图"
转载自微信《炼数成金》大数据的概念在国内走了将近两年的历史,但更多的还是停留在概念层面,能够将大数据真正“落地”的企业并不多,一方面是自身没有足够的数据量,一方面是因为大数据技术方面的困境,当然,他们希望能够用大数据的概念让他们变得高大上。对于用户来说,为何对大数据的概念云里雾里的呢?究其原因,还是企业更多的是在宣传自己如何如何使用大数据来达到某种目
2015-02-16 16:52:48 2405
转载 十八款Hadoop工具帮你驯服大数据
Hadoop已经通过自身的蓬勃发展证明,它不仅仅是一套用于将工作内容传播到计算机群组当中的小型堆栈--不,这与它的潜能相比简直微不足道。这套核心的价值已经被广泛证实,目前大量项目如雨后春笋般围绕它建立起来。有些项目负责数据管理、有些负责流程监控、还有一些则提供先进的数据存储机制。Hadoop业界正在迅速发展,从业企业拿出的解决方案也多种多样,其中包括提供技术支持、在托管集群中提供按时租用服务、
2015-02-16 08:59:36 1088
转载 推荐!国外程序员整理的Java资源大全
构建 这里搜集了用来构建应用程序的工具。 Apache Maven:Maven使用声明进行构建并进行依赖管理,偏向于使用约定而不是配置进行构建。Maven优于Apache Ant。后者采用了一种过程化的方式进行配置,所以维护起来相当困难。Gradle:Gradle采用增量构建。Gradle通过Groovy编程而不是传统的XML声明进行配置。Gradle可以很好地配合
2015-02-09 14:05:49 880
原创 Spark入门到精通视频学习资料--第一章、Scala基础与实践
Scala可能是下下一代Java。这么高的评价让人不禁想看看它到底是什么东西。
2015-02-06 16:38:59 6932 6
转载 我们都是大数据时代的海狸
1973年,AlexPentland还只是个大三学生,他到美国国家宇航局环境研究所实习,做一名电脑程序员。分给他的一项任务是开发一个利用人造卫星,从外太空数清加拿大海狸数量的软件。人造卫星离地球太远,海狸的个头太小,难以精确测度。Pentland灵机一动,想出一个主意:海狸会建造水坝,通过水坝的数量,可以推测海狸的数量。重要的不是去数每一个海狸,而是观察海狸们的生活方式。在之后
2015-02-05 16:44:00 817
转载 只需4组数据,还原你的购物模式
再也别乱扔信用卡小票了。在1月30日的《科学》杂志上,来自麻省理工学院媒体实验室、丹麦奥尔胡斯大学和新泽西罗格斯大学的几名科学家发表了一篇论文,证明了仅需4组较精确的支付时间、支付商家和交易数额,就基本可以确定持卡人的所有消费记录,准确率可达90%;甚至仅仅有较模糊的支付数据,也很有可能泄露消费历史。研究者们取得了一个匿名信用卡消费数据集,其中包括了来自某个经合组织国家的110
2015-02-05 16:41:16 611
JAVA Swing 全教程
2014-06-06
NGOSS-ETOM SID模型
2013-12-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人