大数据处理
文章平均质量分 81
数控小J
当今世界,正在从数据时代走向大数据时代。百度干了广告的事,淘宝干了超市的事,阿里巴巴干了批发的事,微博干了媒体的事,微信干了通讯的事。不是外行干掉内行,是趋势干掉传统模式,是先进的取代落后的。在信息大爆炸时代,变才是永远的不变,敢于突破和改变,不是你接不接受,是它已经在你身边,而且正在改变你的生活。
展开
-
10款超好用的开源大数据分析工具
现如今,整个互联网已经进入大数据时代,“大数据”一词的重点现也已经不仅在于数据规模的定义,它更代表着信息技术发展进入了一个新的里程,虽然只有极少数人能够修炼成数据科学家这一21世纪最性感多金专业人士,但对于大多数非数据分析专业的IT人士来说,掌握对路的大数据工具同样意味着加薪和升值。鉴于市面上大数据分析工具琳琅满目日新月异,为了帮助大家少走弯路,本文将为不同技术背景的IT专业人士整理了十条大数据分析工具的进修技术路径。原创 2017-07-18 17:38:33 · 17600 阅读 · 1 评论 -
分布式计算开源框架Hadoop入门实践(二)
其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就是这些细节会让人摸索半天。Hadoop可以单机跑,也可以配置集群跑,单机跑就不需要多说了,只需要按照Demo的运行说明直接执行命令即可。这里主要重点说一下集群配置运行的过程。原创 2017-05-03 14:34:50 · 444 阅读 · 0 评论 -
一文看懂数据可视化:从编程工具到可视化表现方式
说到可视化,就不得不说一下大数据,毕竟可视化是解决大数据的一种高效的手段,而如今人人都在谈论大数据,大数据 ≠ 有数据 ≠ 数据量大, 离谱的是,如今就连卖早点的觉得自己能统计每天卖出的种类,都敢说自己是搞大数据。原创 2017-04-20 13:51:57 · 3060 阅读 · 0 评论 -
大数据如何聚焦业务价值 | 世界500强美的大数据建设启示
以业务驱动、数据驱动真正形成业务上的决策指导,让企业的业务决策、经营决策、生产决策、市场打法能够真正的落地,并产生实际看得见摸得着的实实在在的价值:比如利润的提升、市场产品的份额增长、经营成本的降低等等。原创 2017-04-19 10:46:24 · 1329 阅读 · 0 评论 -
大数据在医疗领域的应用
大数据顾名思义就是数量极其庞大的数据资料。大数据的意义在于提供‘大见解’:从不同来源收集信息,然后分析信息,以揭示用其他方法发现不了的趋势。早期,IBM定义了大数据的5v特性:大量性( Volume), 多样性(Variety), 快速性(Velocity)价值(Value)真实(Veracity)。原创 2017-04-18 09:54:23 · 24844 阅读 · 0 评论 -
分布式计算开源框架Hadoop入门实践
Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。原创 2017-04-28 11:17:17 · 508 阅读 · 0 评论 -
纽约时报 | 一个机器人导致六名工人失业,工资下降四分之三
《纽约时报》3月28日发表文章称,根据两位著名经济学家的研究结果,机器人与人类争夺工作会略胜一筹:如果为每一千名工人配备一个机器人,将导致六名工人失业,工资下降四分之三。原创 2017-03-31 15:32:05 · 611 阅读 · 0 评论 -
IBM高级工程师谈数据湖管理
在我看来,数据湖是一种参考架构,在保证信息管理秩序和信息安全的条件下,提供了获取数据的有效途径。原创 2017-03-31 15:28:13 · 806 阅读 · 0 评论 -
IBM SPSS Statistics Subscription新版本发布
IBM SPSS Statistics Subscription版本的发布,主要是为了给用户提供最简单最方便最灵活的购买IBM SPSS Statistics的方式,用户根据自己需要选择基本模块,按需要添加需要的其它3类功能的模块即可。原创 2017-04-07 10:07:47 · 2024 阅读 · 0 评论 -
深入分析 BI 数据可视化市场 SaaS 模式
最近碰到很多社区朋友都在关心 BI 领域有关 SaaS 应用的话题,这是一个很好的现象,因为 SaaS 尽管在 BI 领域起步的不算非常早,但它是一个趋势,很值得大家关注。我最近也参加了一些厂商举办的关于大数据行业、产品类的话题交流,对于 BI 数据可视化分析领域的 SaaS 发展情况简单总结了一些个人看法,在这里与大家分享和交流。原创 2017-03-21 14:41:03 · 3542 阅读 · 0 评论 -
写给大数据开发初学者的话 | 附教程
经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣?是软件专业,对软件开发、编程、写代码感兴趣?还是数学、统计学专业,对数据和数字特别感兴趣。。原创 2017-05-11 15:56:07 · 2843 阅读 · 6 评论 -
干货丨23个适合Java开发者的大数据工具和框架
目前,编程人员面对的最大挑战就是复杂性,硬件越来越复杂,OS越来越复杂,编程语言和API越来越复杂,我们构建的应用也越来越复杂。根据外媒的一项调查报告,以下列出了Java程序员在过去12个月内一直使用的一些工具或框架,或许会对你有意义。原创 2017-05-04 10:13:57 · 893 阅读 · 0 评论 -
大数据教程(二)—— Hadoop集群坏境CentOS安装
前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题。原创 2017-04-24 10:32:41 · 710 阅读 · 0 评论 -
速度收藏 | 100+大数据开源处理工具汇总
本文除了一些常用的大数据工具,还总结汇总了其他大数据工具,几乎是最全的大数据工具的总结;如果你想入门大数据,可以对他们进行简单的了解;如果你想学习自己熟悉意外的大数据工具,可以看这篇文章;如果你想选择一个适合自己公司的大数据工具,也可以参考这篇文章。原创 2017-07-10 10:39:51 · 2195 阅读 · 0 评论 -
IBM InfoSphere DataStage 实时监控和统一运维平台
IBM InfoSphere DataStage Operations Console 是一个基于 Web 的监视工具。它为 InfoSphere DataStage 和 QualityStage 客户提供了 IBM InfoSphere Information Server 引擎操作环境的全面视图,监视当前和过去的作业活动、服务器资源使用情况和服务器引擎流程的健康状态。原创 2017-07-07 10:18:34 · 5329 阅读 · 1 评论 -
全球最火的R工具包一网打尽,超过300+工具,立马收藏!
最近在网上到处了解和爬一些R的资料,看着看着就入迷了,这就是个大宝库了,以前怎么没发现,看来还是太狭隘了。直到前几天我看到这个Awesome R文档,我就静不下来了,对比了目前自己的工作和以后的方向,非常适合我。所以毫不犹豫的把这个文档汉化了,所以大家一起享受吧。原创 2017-07-11 10:31:44 · 2319 阅读 · 0 评论 -
IBM大数据采集工具,助力企业快速释放数据价值
在企业“数字化转型”的浪潮中,数据就像血液一样流淌在不同的业务载体中,时刻牵动着企业决策和业务发展方向。随着数据的爆炸式增长和企业转型进程的推进,企业对数据质量有了更高的要求。想要撬动“大数据”这座金山,“可信任数据”将成为下一步企业必争之地。原创 2017-05-22 10:12:01 · 1650 阅读 · 0 评论 -
企业转型 | 如何成为一家真正发挥大数据作用的 “数据驱动型公司”?
作者是业界资深的数据分析师,人工智能投资人,他在文章里给我们介绍了什么是大数据的来源,目前在数据领域的初创公司与现有巨头的竞争现状,各自在数据领域所采取的不同做法,数据分析工作的外包,为什么有关大数据的项目总是会失败?原创 2017-05-10 14:39:49 · 2196 阅读 · 0 评论 -
大数据教程(五)—— Hadoop集群MYSQL的安装
本篇主要介绍在大数据应用中比较常用的一款软件Mysql,我相信这款软件不紧紧在大数据分析的时候会用到,现在作为开源系统中的比较优秀的一款关系型开源数据库已经被很多互联网公司所使用,而且现在正慢慢的壮大中。原创 2017-04-27 13:41:20 · 1071 阅读 · 0 评论 -
从底层到应用,大数据工程师成长之路必备技能汇总
谨以此文献给对数据有热情,想长期从事此行业的年轻人,希望对你们有所启发,并快速调整思路和方向,让自己的职业生涯有更好的发展。根据数据应用的不同阶段,我将从数据底层到最后应用,来谈谈那些数据人的必备技能。原创 2017-05-18 10:54:05 · 1402 阅读 · 0 评论 -
大数据教程(四)—— Hadoop集群VSFTP和SecureCRT安装配置
经过前三篇文章的介绍,已经通过VMware安装了Hadoop集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环境中需要用到的软件,确切的说是两款:VSFTP和SecureCRT。原创 2017-04-26 10:57:53 · 658 阅读 · 0 评论 -
大数据教程(三) Hadoop集群分布式坏境搭建
上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本篇的正题。原创 2017-04-25 09:56:51 · 641 阅读 · 0 评论 -
年度 | 2016 IBM 大数据科技盘点
2016年已经结束,2017也已拉开帷幕。每个人都会对自己过去这一年的经历、表现做一个总结,大数据君也不例外。相信大家对IBM推出的一系列的解决方案都已非常熟悉了,但是大数据君还是要在这里做一个年度总结,快来跟随大数据君的脚步,再次回首一下那些RIO牛的解决方案。原创 2017-01-20 13:55:11 · 673 阅读 · 0 评论 -
国外专家总结2016年大数据领域成果及趋势
外媒 KDnuggets 日前针对大数据领域在2016年度取得的重大发展,以及2017年度可能出现的变化趋势,询问了8位行业内的顶级专家。 虽然各位专家的意见不尽相同,但从其发言中大约可以总结出一个共通点:大数据研究正在由前几年的新鲜技术变得越来越普及和商业化。同时,由于研究的向前推进,以数据为基础的人工智能、机器学习和物联网等其他各个领域也将会取得越来越大的成果。1. Craig Bro原创 2017-02-07 14:51:36 · 1147 阅读 · 0 评论 -
实时流数据分析——2017 年的 27 个预测
根据Markets & Markets的预测,流数据分析市场将从 2016 年的 30 8 亿美元增长到 2021 年的 137 亿美元。各个企业都将快速意识到他们需要利用实时数据集成和流数据分析来获得更有价值的信息、使数据变得更安全以及保持增长。原创 2017-01-10 11:54:29 · 1285 阅读 · 0 评论 -
大数据的“可视化”案例:360的“骗子地图”
大数据的概念在国内走了将近两年的历史,但更多的还是停留在概念层面,能够将大数据真正“落地”的企业并不多,一方面是自身没有足够的数据量,一方面是因为大数据技术方面的困境,当然,他们希望能够用大数据的概念让他们变得高大上。原创 2016-09-28 11:17:44 · 1050 阅读 · 0 评论 -
InfoSphere Streams——实时大数据分析平台
流计算是新的数据声场场景所不可或缺的一种新计算模式,比如无处不在的移动设备、位置服务和遍布各处的传感器。人们需要可伸缩的计算平台和并行架构来处理生成的海量流数据。原创 2016-10-13 14:07:25 · 2491 阅读 · 0 评论 -
10款超好用的工具助力大数据与分析技术
考虑到现有技术解决方案的复杂性与多样化,企业往往很难找到适合自己的大数据收集与分析工具。然而,混乱的时局之下已经有多种方案脱颖而出,证明其能够帮助大家切实完成大数据分析类工作。下面我们将整理出一份包含十款工具的清单,从而有效压缩选择范畴。原创 2016-09-27 11:47:14 · 994 阅读 · 0 评论 -
干货 | 数据挖掘入门必看10个问题
硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但是为什么Data Mining的出现会引发各领域的广泛注意呢?原创 2016-10-12 10:30:45 · 645 阅读 · 0 评论 -
数据驱动业务——梦想成真,只差一步
长久以来,作为在信息管理领域服务多年的IBM人,就一直有个梦想:当业务人员需要分析公司的经营状况时,当市场部需要在特定时间做精准营销时,当老总紧急临时需要某条业务线的汇总数据时,我们可以有个系统马上及时、准确提供数据,漂亮美观地满足各种需求,实现数据驱动业务的目标!原创 2016-09-26 11:08:28 · 528 阅读 · 0 评论 -
助力大数据集成,且看DataStage新玩法
如何将传统数据和大数据进行高效的集成、管理和分析呢?如何保证数据的准确性,一致性和可靠性呢?带着众多疑问,我们来看看IBM所提供的DataStage大数据集成方案,一切必将豁然开朗。原创 2016-09-22 10:38:21 · 2323 阅读 · 0 评论 -
主数据管理解决方案,IBM 仍是业界领军人
主数据管理(Master Data Management,简称 MDM)帮助企业/机构通过其最重要的信息来产生业务上的商业价值。通过对企业的客户、产品、帐户等关键业务信息进行管理,不仅能够提高收入,还有助于降低成本、提高业务灵活性和降低风险。原创 2016-09-21 10:17:44 · 3252 阅读 · 1 评论 -
大数据可视化的最新动态
数据可视化是将数据以不同形式展现在不同系统中,其中包括属性和变量的单位信息。基于可视化发现数据的方法允许用户使用不同的数据源,来创建自定义分析。转载 2016-09-20 10:43:12 · 838 阅读 · 0 评论 -
盘点:全球12个大数据公司
本文整理了当今世界上在大数据领域最具话语权的企业,特别是活跃在中国市场上的企业,它们有的是计算机或者互联网领域的巨头,有的是刚刚创办不久的初创企业。转载 2016-09-18 11:44:34 · 5817 阅读 · 0 评论 -
6个用于大数据分析处理的最好工具
在大数据和大数据分析,他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。原创 2016-10-14 13:52:57 · 1042 阅读 · 0 评论 -
拥抱开源 - 云上元数据管理
上期我们讲述的是实现数据工程师梦想的一个小目标《梦想成真,只差一步》,里面提到了要实现数据超市的管理,数据工程师需要使用合适的工具将数据进行整理、组合、分类后上架,然后业务分析师和数据科学家就可以使用了。原创 2016-09-30 10:46:38 · 2261 阅读 · 0 评论 -
IBM 全新大数据分析平台,助力数据云化
IT架构实现云化已经是企业IT战略的大势所趋。无论是采用私有云技术还是公有云技术,都要求软件具备云环境的适应能力。作为企业最重要的数据资产,依赖于底层的数据管理软件进行有效的管理。为实现从海量数据中得到实用的知识和信息,如何高效组织数据的存储和查找的技术一直在演进。从早期的层次型数据库到关系型数据库,从SQL数据库到NoSQL数据库再到处理非结构化数据的Hadoop、图数据库等平台,一直在发展变化,现在可以说是百花齐放,百家争鸣。原创 2016-10-17 11:06:27 · 966 阅读 · 0 评论 -
IBM SPSS Modeler使用技巧 ----参数及全局变量的使用
在使用IBM SPSS Modeler过程中,有一些小技巧可能容易被大家忽略,而它们却是可以帮助我们更加高效、方便地实现我们需要的功能,今天给大家介绍参数及全局变量的使用。原创 2017-01-05 10:23:26 · 4656 阅读 · 0 评论 -
企业福利 | 运用 IBM 大数据集成技术降低运营成本
当你了解上述的各项 IBM 大数据集成先进技术后,原本看起来很难收集和使用的大数据开始容易和高效率地被利用起来了,通过各行各业用户的不断创新,大数据会逐步为您的企业和机构创造出更多、更大的价值。原创 2016-12-14 10:20:31 · 703 阅读 · 0 评论 -
大数据、数据分析、数据统计、数据挖掘、OLAP的区别
在大数据领域里,经常会看到例如数据挖掘、OLAP、数据分析、数据可视化等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和区别。今天,我们就来通过一些大数据在高校应用的例子,来为大家说明白—数据挖掘、大数据、OLAP、数据可视化的区别。原创 2016-12-16 10:00:19 · 2746 阅读 · 1 评论