hadoop
文章平均质量分 80
数控小J
当今世界,正在从数据时代走向大数据时代。百度干了广告的事,淘宝干了超市的事,阿里巴巴干了批发的事,微博干了媒体的事,微信干了通讯的事。不是外行干掉内行,是趋势干掉传统模式,是先进的取代落后的。在信息大爆炸时代,变才是永远的不变,敢于突破和改变,不是你接不接受,是它已经在你身边,而且正在改变你的生活。
展开
-
解析IBM SQL-on-Hadoop的优化思路
IBM Big SQL 是SQL on Hadoop 的方案,它的核心引擎沿用了DB2的技术,因此,Big SQL的优化与DB2类似。由于Big SQL本身不拥有数据(数据在HDFS),所以它自身的优化选项要比DB2少,但同时要注意优化Hadoop/HDFS。转载 2016-05-30 11:15:19 · 499 阅读 · 0 评论 -
IBM Streams时间序列数据分析
时间序列数据是一个物体或多个物体随着时间不断产生的数值序列。比如:从智能电表中获得月电度使用量;每日股票的价格和交易量;ECG(心电图);地震仪,网络性能数据等等。时间序列数据一定基于时间顺序,这个顺序是所有时间分析算法的基础。IBM Streams时间序列工具包(TimeSeries Toolkit),可以用来预处理、分析和建模时间序列数据。原创 2016-11-29 13:17:01 · 1058 阅读 · 0 评论 -
Hadoop生态圈以及各组成部分的简介
Hadoop是什么?适合大数据的分布式存储与计算平台;HDFS: Hadoop Distributed File System分布式文件系统;MapReduce:并行计算框架原创 2016-11-24 11:29:10 · 5114 阅读 · 0 评论 -
大数据、数据分析、数据统计、数据挖掘、OLAP的区别
在大数据领域里,经常会看到例如数据挖掘、OLAP、数据分析、数据可视化等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和区别。今天,我们就来通过一些大数据在高校应用的例子,来为大家说明白—数据挖掘、大数据、OLAP、数据可视化的区别。原创 2016-12-16 10:00:19 · 2747 阅读 · 1 评论 -
大数据时代,连犯罪都能预测?
逢年过节,要数小偷最为猖狂。随着圣诞节、元旦的临近,在你欣喜若狂地安排出行计划之时,小偷们也正面带窃笑地摩拳擦掌。如果在游玩的同时还要防贼,是多么地累心啊?要是能预测犯罪就好了。没错,就是预测犯罪。原创 2016-12-20 09:35:47 · 3327 阅读 · 0 评论 -
分布式计算开源框架Hadoop入门实践
Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。原创 2017-04-28 11:17:17 · 508 阅读 · 0 评论 -
分布式计算开源框架Hadoop入门实践(二)
其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就是这些细节会让人摸索半天。Hadoop可以单机跑,也可以配置集群跑,单机跑就不需要多说了,只需要按照Demo的运行说明直接执行命令即可。这里主要重点说一下集群配置运行的过程。原创 2017-05-03 14:34:50 · 445 阅读 · 0 评论 -
写给大数据开发初学者的话 | 附教程
经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。。原创 2017-05-11 15:56:07 · 2843 阅读 · 6 评论 -
大数据教程(一)—— Hadoop集群坏境搭建配置
关于大数据的概念或者架构一直在各方争议的背景下持续的存在着。目前,关于大数据项目可以真正被落地实施的解决方案就是:Hadoop为核心的的一些列开源分布式解决方案。原创 2017-04-21 10:48:04 · 854 阅读 · 0 评论 -
大数据教程(二)—— Hadoop集群坏境CentOS安装
前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题。原创 2017-04-24 10:32:41 · 711 阅读 · 0 评论 -
大数据教程(三) Hadoop集群分布式坏境搭建
上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本篇的正题。原创 2017-04-25 09:56:51 · 643 阅读 · 0 评论 -
Hadoop没有消亡,它是大数据的未来
有人认为 Hadoop 正在失败,但硅谷数据管理公司 Hortonworks 的总经理 Vamsi K. Chemitiganti 并不这么看,本文就是对其观点的编译介绍。原创 2017-05-08 10:36:11 · 550 阅读 · 0 评论 -
大数据教程(四)—— Hadoop集群VSFTP和SecureCRT安装配置
经过前三篇文章的介绍,已经通过VMware安装了Hadoop集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环境中需要用到的软件,确切的说是两款:VSFTP和SecureCRT。原创 2017-04-26 10:57:53 · 658 阅读 · 0 评论 -
从底层到应用,大数据工程师成长之路必备技能汇总
谨以此文献给对数据有热情,想长期从事此行业的年轻人,希望对你们有所启发,并快速调整思路和方向,让自己的职业生涯有更好的发展。根据数据应用的不同阶段,我将从数据底层到最后应用,来谈谈那些数据人的必备技能。原创 2017-05-18 10:54:05 · 1402 阅读 · 0 评论 -
Hadoop和大数据:60款顶级开源工具
在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2017年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。IBM更是非常看好开源大数据工具,派出了3500名研究人员开发Apache Spark,这个工具是Hadoop生态系统的一部分。转载 2016-11-07 10:06:13 · 607 阅读 · 0 评论 -
拥抱开源 - 云上元数据管理
上期我们讲述的是实现数据工程师梦想的一个小目标《梦想成真,只差一步》,里面提到了要实现数据超市的管理,数据工程师需要使用合适的工具将数据进行整理、组合、分类后上架,然后业务分析师和数据科学家就可以使用了。原创 2016-09-30 10:46:38 · 2262 阅读 · 0 评论 -
干货 | 数据挖掘入门必看10个问题
硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Mining的出现会引发各领域的广泛注意呢?原创 2016-10-12 10:30:45 · 645 阅读 · 0 评论 -
基于x86服务器的Hadoop集群配置参考
基于Hadoop的大数据方案越来越多地被企业所采用。但是,如何进行合理地规划和配置Hadoop平台是很多用户头痛的事情。在我们接触或合作的很大一部分客户,他们在给Hadoop配置硬件的时候,通常没有考虑到对大数据处理的特性,造成后续Hadoop集群的性能无法满足要求。原创 2016-06-28 10:37:22 · 1259 阅读 · 0 评论 -
IBM BigInsights 4.1 发布了 ,对Hadoop的支持更加深入!
IBM BigInsights 是实现IBM大数据战略的重要旗舰产品,下文将介绍刚发布的4.1版本所包含的功能和组件。原创 2016-07-11 10:49:18 · 689 阅读 · 0 评论 -
IBM SPSS Modeler算法系列-----决策树CHAID算法
谈到算法,大家都觉得挺神秘的,对没有学过统计学相关知识的朋友来说,太多的数学公式没法理解,很多书籍介绍的也比较表象,看得云里雾里的,那么今天,我们将尝试给大家介绍SPSS Modeler里面所涵盖的一些算法内容,既不那么地表象,也不那么地难以理解。原创 2016-07-22 15:05:57 · 22325 阅读 · 3 评论 -
搭建企业级大数据分析平台也可以很简单!
对于大数据分析平台的建设,往往不是某个产品就能够满足,而是需要多种不同的产品一起搭建。例如,搭建大数据平台需要大规模数据存储平台,需要数据处理和挖掘工具,分析结果需要通过展现工具体现大数据分析的价值。所以,没有一个完善的BigData生态系统,大数据分析平台是搭建不起来的。原创 2016-07-12 10:27:52 · 1520 阅读 · 0 评论 -
备份恢复、多租户,样样都不能少 -- 谈谈BigInsights企业管理模块的作用
作为企业级大数据平台,各厂商在集成开源技术的同时,也会在其基础之上发展各种针对性的技术,满足企业各方面的需求。下面我们就简要给大家介绍IBM在BigInsights大数据平台中,针对企业的备份恢复、多租户等需求所进行的一系列扩展。原创 2016-07-26 10:17:28 · 658 阅读 · 0 评论 -
SPSS与Streams的集成实现实时预测
SPSS Modeler 是一个数据挖掘工作台,提供了一个可了解数据并生成预测模型的最先进的环境。Streams 提供了一个可伸缩的高性能环境,对不断变化的数据进行实时分析,在实时处理需要高级分析时,使用Streams和SPSS集成,实现实时评分预测。实时应用预测分析的用例的示例包括网络安全、银行和信用卡欺诈检测、预测性维护,以及实时营销产品。原创 2016-07-28 10:44:19 · 386 阅读 · 0 评论 -
流计算也能像数据库那样保证数据不丢失吗?
流计算也能像数据库那样保证数据不丢失吗?原创 2016-07-18 10:28:20 · 572 阅读 · 0 评论 -
IBM BigInsights新增独门绝技:全面支持Hadoop On Power!
IBM BigInsights新增独门绝技:全面支持Hadoop On Power!原创 2016-07-18 10:33:28 · 675 阅读 · 0 评论 -
IBM专家亲自解读 Spark2.0 操作指南
本文带大家一起进行Spark的大数据之旅。本文的内容主要分为两个部分:一是Spark的背景介绍,二是介绍Spark的基础。原创 2016-07-08 11:39:26 · 1763 阅读 · 0 评论 -
干货分享:SparkBench--Spark平台的基准性能测试
SparkBench的测试项目覆盖了Spark支持的四种最主流的应用类型,即机器学习、图计算、SQL查询和流数据计算。每种类型的应用又选择了最常用的几个算法或者应用进行比对测试,测试结果从系统资源消耗、时间消耗、数据流特点等各方面全面考察,总体而言是比较全面的测试。原创 2016-07-19 15:22:38 · 6945 阅读 · 4 评论 -
收藏 | 史上最全的“大数据”学习资源(上)
当前,整个互联网正在从IT时代向DT时代演进,大数据技术也正在助力企业和公众敲开DT世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的时代,代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难,代表着大数据处理所需的新的技术和方法,也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。原创 2016-07-20 11:28:33 · 1151 阅读 · 0 评论 -
InfoSphere CDC 实时同步本地数据到云端的BigInsights
IBM InfoSphere CDC 是一款功能强大的数据实时复制软件,不仅广泛应用于传统ODS、数据仓库、数据集市及BI系统的异构平台集成,同时也提供对Cloud的全面支持;对于各种 Cloud 应用场景,CDC 不仅能提供低影响、近实时的海量数据复制,同时还可确保数据在传输过程中的完整性和安全性。原创 2016-07-21 11:33:20 · 3319 阅读 · 0 评论 -
将现有的SQL工作负载迁移至hadoop竟然如此简单!
想迁移现有的数据仓库到Hadoop平台?想在Hadoop上重用其他RDMBS的SQL技能?有何方案能帮助您解决这类问题,答案是IBM Big SQL。原创 2016-08-25 10:05:23 · 1878 阅读 · 0 评论 -
Hadoop 信息集成平台,让大数据分析更简单!
就本身而言,Hadoop 不是很有用的东西,原因是它需要编写大量复杂和定制的程序代码,难以治理,也没有数据质量概念和数据治理可谈了。企业用户都忙于去研究如何解决使用 Hadoop 所碰到的问题,主要是涉及到项目实施时间、成本和风险等,而 Hadoop 自身的客户化编程就增加了项目实施时间、成本和风险。原创 2016-09-08 10:39:53 · 687 阅读 · 0 评论 -
大数据教程(五)—— Hadoop集群MYSQL的安装
本篇主要介绍在大数据应用中比较常用的一款软件Mysql,我相信这款软件不紧紧在大数据分析的时候会用到,现在作为开源系统中的比较优秀的一款关系型开源数据库已经被很多互联网公司所使用,而且现在正慢慢的壮大中。原创 2017-04-27 13:41:20 · 1071 阅读 · 0 评论