大数据平台搭建
文章平均质量分 81
数控小J
当今世界,正在从数据时代走向大数据时代。百度干了广告的事,淘宝干了超市的事,阿里巴巴干了批发的事,微博干了媒体的事,微信干了通讯的事。不是外行干掉内行,是趋势干掉传统模式,是先进的取代落后的。在信息大爆炸时代,变才是永远的不变,敢于突破和改变,不是你接不接受,是它已经在你身边,而且正在改变你的生活。
展开
-
大数据时代:搭建自己的大数据平台可以很容易!
随着大数据技术的蓬勃发展,越来越多的客户逐渐构建起自己的大数据平台,并实现了原有技术难以实现的业务场景。在国内,IBM作为主要的大数据产品和解决方案提供商之一,通过可靠的产品和可信赖的服务赢得越来越多客户的信任,下面就让我们一起通过几个应用案例,来看看国内的客户如何使用IBM的大数据产品吧转载 2016-05-17 11:55:14 · 7009 阅读 · 0 评论 -
InfoSphere CDC 实时同步本地数据到云端的BigInsights
IBM InfoSphere CDC 是一款功能强大的数据实时复制软件,不仅广泛应用于传统ODS、数据仓库、数据集市及BI系统的异构平台集成,同时也提供对Cloud的全面支持;对于各种 Cloud 应用场景,CDC 不仅能提供低影响、近实时的海量数据复制,同时还可确保数据在传输过程中的完整性和安全性。原创 2016-07-21 11:33:20 · 3318 阅读 · 0 评论 -
应用 SPSS Statistics 线性回归模型分析商业保险固定资产理赔案例
商业保险公司希望通过分析以往的固定资产保险理赔案例,能够预测理赔金额,借以提高其服务中心处理保险理赔业务的速度和服务质量,并降低公司运营风险。业界领先的预测分析软件 IBM SPSS Statistics 提供了强大的线性回归分析功能,能够有效地解决此类问题。本文结合该商业实例介绍了线性回归模型的基本概念,以及使用 Statistics 进行线性回归分析,解决该商业问题的基本步骤和方法。原创 2016-08-01 11:01:36 · 4601 阅读 · 1 评论 -
天气数据垂手可得-IBM SPSS Modeler 18.0扩展应用实操练习
大家是不是有这样的习惯,每天早上起床第一件事,先看看天气预报,天气的好坏,可能会影响我们一天的工作、生活、或者身体的状态。对于某些行业来说,比如零售业,天气的好坏也随时影响着他们的营业情况。天气信息对我们来说非常重要,对企业也一样,那么今天就教大家如何获取真实有效的天气数据,来辅助我们的业务分析。原创 2016-08-02 10:16:25 · 3376 阅读 · 0 评论 -
IBM 混合数据仓库架构介绍
当前,越来越多的企业正在考虑将其数据仓库迁移至云端,对于大多数企业而言,现有的数据仓库部署在本地的数据中心中,基于投资保护和数据安全的考量,无法将数据仓库整体迁移到云上。因此,一种混合型的,将本地和云端数据仓库整合的架构,成为大多数企业倾向并选择的部署方式。原创 2016-08-08 10:13:37 · 2268 阅读 · 0 评论 -
文本数据分析神器—— IBM BigInsights Text Analytics
文本数据在我们的生活中无处不在:在微信朋友圈、微博中发表的感想;在论坛上发表的评价商品的帖子;由应用后台自动生成的机器日志等。这类数据本身包含了大量有用的信息,但由于文本表达方式可以很灵活,在不需要严格遵循语法的情况下也能准确表达信息。比如下图中表达人物年龄就有三种不同的说法。原创 2016-08-30 10:37:24 · 4024 阅读 · 1 评论 -
数据访问的穿透能力-Big SQL与关系型数据库的联盟
在某些场景下,Hadoop平台上的数据分析需要用到RMDBS上的数据,每次从数据源移动或复制数据到Hadoop是不现实的,因为您要考虑移动或复制数据的频率、时间成本、管理成本等等。这样,利用Federation技术直接、透明地访问远程RMDBS数据源成为解决问题的有效途径。原创 2016-08-09 10:18:36 · 2136 阅读 · 0 评论 -
大数据时代:传统BI还能走多远?
从事BI多年,经历了经营分析系统的大建设,大发展时期,也有幸处在大数据与传统BI系统的交替之际,因此特别来谈谈,传统BI还能走多远?原创 2016-09-12 11:36:26 · 2475 阅读 · 0 评论 -
收藏 | 全球大数据7大阵营,你都知道吗?
近几年,大数据行业已经逐渐成熟,在也不是大家谈之缥缈的行业,目前国内外从事这一行业的企业多入牛毛,但能称的上权威和代表,也都数的过来,下面我们就目前全球关于大数据行业所涉猎的范围作了一个分类,称其为7大阵营,以下是7大阵营的企业LOGO图。原创 2016-09-13 09:53:16 · 500 阅读 · 0 评论 -
Hadoop 信息集成平台,让大数据分析更简单!
就本身而言,Hadoop 不是很有用的东西,原因是它需要编写大量复杂和定制的程序代码,难以治理,也没有数据质量概念和数据治理可谈了。企业用户都忙于去研究如何解决使用 Hadoop 所碰到的问题,主要是涉及到项目实施时间、成本和风险等,而 Hadoop 自身的客户化编程就增加了项目实施时间、成本和风险。原创 2016-09-08 10:39:53 · 687 阅读 · 0 评论 -
InfoSphere Streams——实时大数据分析平台
流计算是新的数据声场场景所不可或缺的一种新计算模式,比如无处不在的移动设备、位置服务和遍布各处的传感器。人们需要可伸缩的计算平台和并行架构来处理生成的海量流数据。原创 2016-10-13 14:07:25 · 2491 阅读 · 0 评论 -
流式大数据实时处理—技术、平台及应用
CNCC 2016在山西太原盛大开幕,开幕演讲中,CCF会士、中国工程院院士、浙江大学陈纯教授做了题为“流式大数据实时处理技术、平台及应用”的报告,以下为报告内容精编。原创 2016-10-24 13:27:30 · 1239 阅读 · 0 评论 -
IBM 全新大数据分析平台,助力数据云化
IT架构实现云化已经是企业IT战略的大势所趋。无论是采用私有云技术还是公有云技术,都要求软件具备云环境的适应能力。作为企业最重要的数据资产,依赖于底层的数据管理软件进行有效的管理。为实现从海量数据中得到实用的知识和信息,如何高效组织数据的存储和查找的技术一直在演进。从早期的层次型数据库到关系型数据库,从SQL数据库到NoSQL数据库再到处理非结构化数据的Hadoop、图数据库等平台,一直在发展变化,现在可以说是百花齐放,百家争鸣。原创 2016-10-17 11:06:27 · 967 阅读 · 0 评论 -
一张图,带你读懂 IBM 云上真实洞察数据那些事
在传统的交易数据库系统中,伴随着客户的交易行为发生,在业务系统中产生了相应的交易数据,并保存在关系型数据库系统,从而形成了业务的交易记录,各类业务应用系统都是围绕着关系型数据库打交道。原创 2016-10-20 13:41:10 · 677 阅读 · 0 评论 -
Hadoop生态圈以及各组成部分的简介
Hadoop是什么?适合大数据的分布式存储与计算平台;HDFS: Hadoop Distributed File System分布式文件系统;MapReduce:并行计算框架原创 2016-11-24 11:29:10 · 5114 阅读 · 0 评论 -
Hadoop没有消亡,它是大数据的未来
有人认为 Hadoop 正在失败,但硅谷数据管理公司 Hortonworks 的总经理 Vamsi K. Chemitiganti 并不这么看,本文就是对其观点的编译介绍。原创 2017-05-08 10:36:11 · 549 阅读 · 0 评论 -
从底层到应用,大数据工程师成长之路必备技能汇总
谨以此文献给对数据有热情,想长期从事此行业的年轻人,希望对你们有所启发,并快速调整思路和方向,让自己的职业生涯有更好的发展。根据数据应用的不同阶段,我将从数据底层到最后应用,来谈谈那些数据人的必备技能。原创 2017-05-18 10:54:05 · 1402 阅读 · 0 评论 -
使用 InfoSphere Warehouse 和 Cognos 检测偏差
在 上一篇文章中,您学习了如何在 Cognos中可视化简单的数据挖掘结果。在本文中,您将学习一些高级技巧,例如使用 Cognos 从数据挖掘模型中下钻和提取结构化信息。使用本文的业务场景和实例,理解偏差检测所需的挖掘任务,即识别异常数据记录。学习如何使用 IBM InfoSphere™ Warehouse 数据挖掘发现这些记录,并创建交互式报告。原创 2016-08-04 10:28:58 · 554 阅读 · 0 评论 -
收藏 | 史上最全的“大数据”学习资源(上)
当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。原创 2016-07-20 11:28:33 · 1151 阅读 · 0 评论 -
干货分享:SparkBench--Spark平台的基准性能测试
SparkBench的测试项目覆盖了Spark支持的四种最主流的应用类型,即机器学习、图计算、SQL查询和流数据计算。每种类型的应用又选择了最常用的几个算法或者应用进行比对测试,测试结果从系统资源消耗、时间消耗、数据流特点等各方面全面考察,总体而言是比较全面的测试。原创 2016-07-19 15:22:38 · 6943 阅读 · 4 评论 -
中国还在“互联网+”,美国已悄悄进入“新硬件时代”
如今,举国上下大搞“互联网+”,而另一边,美国则悄悄地进入了我们为所未闻、见所未见的“新硬件时代”,是否我们的企业乃至整个社会,应该在所谓的“互联网+”狂热中冷静一下,放眼2-3年后的未来,那里有一个“新硬件时代”在悄悄来临……转载 2016-07-11 10:40:35 · 705 阅读 · 0 评论 -
IBM BigInsights 4.1 发布了 ,对Hadoop的支持更加深入!
IBM BigInsights 是实现IBM大数据战略的重要旗舰产品,下文将介绍刚发布的4.1版本所包含的功能和组件。原创 2016-07-11 10:49:18 · 689 阅读 · 0 评论 -
IBM SPSS Modeler算法系列-----决策树CHAID算法
谈到算法,大家都觉得挺神秘的,对没有学过统计学相关知识的朋友来说,太多的数学公式没法理解,很多书籍介绍的也比较表象,看得云里雾里的,那么今天,我们将尝试给大家介绍SPSS Modeler里面所涵盖的一些算法内容,既不那么地表象,也不那么地难以理解。原创 2016-07-22 15:05:57 · 22324 阅读 · 3 评论 -
搭建企业级大数据分析平台也可以很简单!
对于大数据分析平台的建设,往往不是某个产品就能够满足,而是需要多种不同的产品一起搭建。例如,搭建大数据平台需要大规模数据存储平台,需要数据处理和挖掘工具,分析结果需要通过展现工具体现大数据分析的价值。所以,没有一个完善的BigData生态系统,大数据分析平台是搭建不起来的。原创 2016-07-12 10:27:52 · 1507 阅读 · 0 评论 -
全面拥抱开源技术,数据实时集成案例分享
随着业界传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的方向。很多企业在建设他们的业务交易和分析系统的项目中,开始关注和选用具有“自我特色”的开源技术和软件作为整体解决方案中的组成部分去实施。原创 2016-07-13 11:32:57 · 1850 阅读 · 0 评论 -
利用流计算实时检测网络威胁
自从互联网问世以来,网络攻击和威胁一直存在。恶意的攻击会给企业带来物理上和经济上的的损失。随着技术的发展,恶意的网络攻击不断增加,而且越来越危险。因此,防范网络攻击变得异常重要。原创 2016-07-25 10:48:33 · 695 阅读 · 0 评论 -
备份恢复、多租户,样样都不能少 -- 谈谈BigInsights企业管理模块的作用
作为企业级大数据平台,各厂商在集成开源技术的同时,也会在其基础之上发展各种针对性的技术,满足企业各方面的需求。下面我们就简要给大家介绍IBM在BigInsights大数据平台中,针对企业的备份恢复、多租户等需求所进行的一系列扩展。原创 2016-07-26 10:17:28 · 658 阅读 · 0 评论 -
BigInsights金刚钻之BigSheets: 零编程!处理海量数据
一款功能丰富、使用简单的数据处理工具无疑可以带来极大的帮助,可以为业务人员、数据分析师和数据科学家节省大量的时间和精力。BigSheets就是这样一款设计用来处理海量数据的图形化工具。原创 2016-07-15 10:46:43 · 1267 阅读 · 0 评论 -
医疗行业大数据应用的三个案例
文章从华大基因推出肿瘤基因检测服务、大数据预测早产儿病情、广东省人民医院利用大数据调配床位3个医疗行业大数据应用案例中,以应用背景、数据源、图说场景、实现途径、应用效果5个视角去看待大数据在医疗的应用状况。转载 2016-07-15 10:48:18 · 5399 阅读 · 0 评论 -
大数据在医疗卫生领域的应用:减少成本,改善效果
对医疗数据数字化及数据共享的标准化和倡导,改进并降低数据存储成本,并能够在商业硬件上运行,这些都促成了大数据在医疗行业的应用,并以更低的成本获得更好的医疗卫生服务为目标。转载 2016-07-27 10:19:00 · 5906 阅读 · 0 评论 -
详解如何用 SPSS + BigInsights 共同构架大数据分析平台
相关背景及概念介绍IBM SPSS Modeler(以下简称 Modeler)是一款数据挖掘分析的行业软件,其采用数据流的方式来展示数据挖掘的操作过程,并结合 CRISP-DM 工业标准打造了一个支持众多数据挖掘操作的应用平台。IBM SPSS Analytic Server是大数据分析的解决方案,它提供了一个易于实现的框架,从而能够在分布式文件系统上来执行大数据分析。它将 IBM SPS原创 2016-06-21 11:38:21 · 1951 阅读 · 0 评论 -
SPSS与Streams的集成实现实时预测
SPSS Modeler 是一个数据挖掘工作台,提供了一个可了解数据并生成预测模型的最先进的环境。Streams 提供了一个可伸缩的高性能环境,对不断变化的数据进行实时分析,在实时处理需要高级分析时,使用Streams和SPSS集成,实现实时评分预测。实时应用预测分析的用例的示例包括网络安全、银行和信用卡欺诈检测、预测性维护,以及实时营销产品。原创 2016-07-28 10:44:19 · 386 阅读 · 0 评论 -
流计算也能像数据库那样保证数据不丢失吗?
流计算也能像数据库那样保证数据不丢失吗?原创 2016-07-18 10:28:20 · 572 阅读 · 0 评论 -
IBM BigInsights新增独门绝技:全面支持Hadoop On Power!
IBM BigInsights新增独门绝技:全面支持Hadoop On Power!原创 2016-07-18 10:33:28 · 673 阅读 · 0 评论 -
IBM专家亲自解读 Spark2.0 操作指南
本文带大家一起进行Spark的大数据之旅。本文的内容主要分为两个部分:一是Spark的背景介绍,二是介绍Spark的基础。原创 2016-07-08 11:39:26 · 1763 阅读 · 0 评论 -
大数据环境下的多维分析技术
随着商业智能系统的深入应用,分析系统的数据量呈指数级增长,原有依赖硬盘IO处理性能(包括传统数据库、多维立方体文件)的多维分析技术遭遇到性能瓶颈。与此同时,随着服务器内存价格的下降,一种新的基于内存的OLAP技术架构出现了。原创 2016-07-29 10:19:14 · 2440 阅读 · 0 评论 -
速度收藏 | 100+大数据开源处理工具汇总
本文除了一些常用的大数据工具,还总结汇总了其他大数据工具,几乎是最全的大数据工具的总结;如果你想入门大数据,可以对他们进行简单的了解;如果你想学习自己熟悉意外的大数据工具,可以看这篇文章;如果你想选择一个适合自己公司的大数据工具,也可以参考这篇文章。原创 2017-07-10 10:39:51 · 2195 阅读 · 0 评论