从底层到应用,大数据工程师成长之路必备技能汇总

谨以此文献给对数据有热情,想长期从事此行业的年轻人,希望对你们有所启发,并快速调整思路和方向,让自己的职业生涯有更好的发展。 根据数据应用的不同阶段,我将从数据底层到最后应用,来谈谈那些数据人的必备技能。

2017-05-18 10:54:05

阅读数:886

评论数:0

写给大数据开发初学者的话 | 附教程

经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统、硬件、网络、服务器感兴趣...

2017-05-11 15:56:07

阅读数:1655

评论数:5

Hadoop没有消亡,它是大数据的未来

有人认为 Hadoop 正在失败,但硅谷数据管理公司 Hortonworks 的总经理 Vamsi K. Chemitiganti 并不这么看,本文就是对其观点的编译介绍。

2017-05-08 10:36:11

阅读数:283

评论数:0

分布式计算开源框架Hadoop入门实践(二)

其实参看Hadoop官方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就是这些细节会让人摸索半天。Hadoop可以单机跑,也可以配置集群跑,单机跑就不需要多说了,只需要按照Demo的运行说明直接执行命令即可。这里主要重点说一下集...

2017-05-03 14:34:50

阅读数:248

评论数:0

分布式计算开源框架Hadoop入门实践

Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。

2017-04-28 11:17:17

阅读数:314

评论数:0

大数据教程(五)—— Hadoop集群MYSQL的安装

本篇主要介绍在大数据应用中比较常用的一款软件Mysql,我相信这款软件不紧紧在大数据分析的时候会用到,现在作为开源系统中的比较优秀的一款关系型开源数据库已经被很多互联网公司所使用,而且现在正慢慢的壮大中。

2017-04-27 13:41:20

阅读数:685

评论数:0

大数据教程(四)—— Hadoop集群VSFTP和SecureCRT安装配置

经过前三篇文章的介绍,已经通过VMware安装了Hadoop集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环境中需要用到的软件,确切的说是两款:VSFTP和SecureCRT。

2017-04-26 10:57:53

阅读数:365

评论数:0

大数据教程(三) Hadoop集群分布式坏境搭建

上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本篇的正题。

2017-04-25 09:56:51

阅读数:388

评论数:0

大数据教程(二)—— Hadoop集群坏境CentOS安装

前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题。

2017-04-24 10:32:41

阅读数:416

评论数:0

大数据教程(一)—— Hadoop集群坏境搭建配置

关于大数据的概念或者架构一直在各方争议的背景下持续的存在着。目前,关于大数据项目可以真正被落地实施的解决方案就是:Hadoop为核心的的一些列开源分布式解决方案。

2017-04-21 10:48:04

阅读数:423

评论数:0

大数据时代,连犯罪都能预测?

逢年过节,要数小偷最为猖狂。随着圣诞节、元旦的临近,在你欣喜若狂地安排出行计划之时,小偷们也正面带窃笑地摩拳擦掌。如果在游玩的同时还要防贼,是多么地累心啊?要是能预测犯罪就好了。没错,就是预测犯罪。

2016-12-20 09:35:47

阅读数:1041

评论数:0

大数据、数据分析、数据统计、数据挖掘、OLAP的区别

在大数据领域里,经常会看到例如数据挖掘、OLAP、数据分析、数据可视化等等的专业词汇。如果仅仅从字面上,我们很难说清楚每个词汇的意义和区别。今天,我们就来通过一些大数据在高校应用的例子,来为大家说明白—数据挖掘、大数据、OLAP、数据可视化的区别。

2016-12-16 10:00:19

阅读数:466

评论数:0

InfoSphere CDC 企业传统数据到大数据集成的加速器

我们常常会思考什么样的数据才是大数据,只有数据量大才能真正称之为大数据吗?其实不然,大数据的特征应该包括数量、速度,多样性和精准性这四个方面,也就是通常所说的4个V: Volume,Velocity,Variety 和Veracity。

2016-12-08 11:00:36

阅读数:340

评论数:0

IBM Streams时间序列数据分析

时间序列数据是一个物体或多个物体随着时间不断产生的数值序列。比如:从智能电表中获得月电度使用量;每日股票的价格和交易量;ECG(心电图);地震仪,网络性能数据等等。时间序列数据一定基于时间顺序,这个顺序是所有时间分析算法的基础。IBM Streams时间序列工具包(TimeSeries Toolk...

2016-11-29 13:17:01

阅读数:536

评论数:0

Hadoop生态圈以及各组成部分的简介

Hadoop是什么?适合大数据的分布式存储与计算平台;HDFS: Hadoop Distributed File System分布式文件系统;MapReduce:并行计算框架

2016-11-24 11:29:10

阅读数:1082

评论数:0

Hadoop和大数据:60款顶级开源工具

在接下来几年,“100%的大公司”会采用Hadoop。Market Research的一份报告预测,到2017年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。IBM更是非常看好开源大数据工具,派出了3500名研究人员开发Apache Spa...

2016-11-07 10:06:13

阅读数:391

评论数:0

干货 | 数据挖掘入门必看10个问题

硬要去区分Data Mining和Statistics的差异其实是没有太大意义的。一般将之定义为Data Mining技术的CART、CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑。但...

2016-10-12 10:30:45

阅读数:350

评论数:0

拥抱开源 - 云上元数据管理

上期我们讲述的是实现数据工程师梦想的一个小目标《梦想成真,只差一步》,里面提到了要实现数据超市的管理,数据工程师需要使用合适的工具将数据进行整理、组合、分类后上架,然后业务分析师和数据科学家就可以使用了。

2016-09-30 10:46:38

阅读数:501

评论数:0

Hadoop 信息集成平台,让大数据分析更简单!

就本身而言,Hadoop 不是很有用的东西,原因是它需要编写大量复杂和定制的程序代码,难以治理,也没有数据质量概念和数据治理可谈了。企业用户都忙于去研究如何解决使用 Hadoop 所碰到的问题,主要是涉及到项目实施时间、成本和风险等,而 Hadoop 自身的客户化编程就增加了项目实施时间、成本和风...

2016-09-08 10:39:53

阅读数:397

评论数:0

将现有的SQL工作负载迁移至hadoop竟然如此简单!

想迁移现有的数据仓库到Hadoop平台?想在Hadoop上重用其他RDMBS的SQL技能?有何方案能帮助您解决这类问题,答案是IBM Big SQL。

2016-08-25 10:05:23

阅读数:718

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭