自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

IT时代周刊

最新的IT资讯科技

  • 博客(117)
  • 收藏
  • 关注

原创 大数据技术怎么自学?大数据开发如何自学?

我们在学习大数据开发前需要先找到适合自己的方式方法,首先需要审视一下自身的情况,是否是以兴趣为出发点,对大数据是不是自己是真的感兴趣吗,目前对大数据的了解有多少,自己的学习能力和理解能力是否适合学习。如果是跨行业转岗是否做好了心理准备。根据不同基础水平可以分为三类:  第一类:零基础学员,对大数据行业和技术一无所知;  第二类:有一定的编程基础,对大数据行业略知一二,无发真正应该用;  第三...

2019-05-25 11:29:59 2389

原创 Kafka集群内复制功能深入剖析

Kafka是一个分布式发布订阅消息系统。由LinkedIn开发并已经在2011年7月成为apache顶级项目。kafka在LinkedIn, Twitte等许多公司都得到广泛使用,主要用于:日志聚合,消息队列,实时监控等。  0.8版本开始,kafka支持集群内复制,从而提高可用性和系统稳定性,这篇文章主要概述kafka复制的设计。  复制  有了复制后,kafka客户端将会得到如下好处: ...

2019-05-25 11:29:56 1098

原创 为数据而生:大数据创新实践八步骤

什么样的企业可以称得上是大数据企业呢?恐怕没有人能够给出一个完美的答案。但是,直观地,我们可能觉得Google更像是一个大数据的企业,阿里巴巴也像是一个大数据的企业,而中国银行似乎不太像一个大数据的企业,尽管它每天也一样浸泡在海量的数据中。关键词:大数据  成为大数据企业  什么样的企业可以称得上是大数据企业呢?恐怕没有人能够给出一个完美的答案。但是,直观地,我们可能觉得Google更像...

2019-05-25 11:29:53 1672

原创 大数据产业的基石,大数据采集

  经过60多年的演进,特别是移动互联网、大数据、超级计算、传感网、脑科学等新理论新技术的引领,再加上经济社会发展强烈需求的驱动,人工智能正更加广泛地应用到人们的生活中。人类已经迈入了波澜壮阔的人工智能时代。说到人工智能,我们今天就不得不说说人工智能算法了,人工智能算法是一个开源的领域,拥有数据就像是拥有了金矿,数据是AI界最根本的竞争力,并且数据的“采集”、“清洗”、“标注”成为了行业内部的刚需...

2019-05-25 11:29:42 1247

原创 大数据和人工智能开发你需要掌握的12个点

人工智能是近年来科技发展的重要方向,在大数据时代,对数据采集、挖掘、应用的技术越来越受到瞩目。在人工智能和大数据的开发过程中,有哪些特别需要注意的要点?  人工智能领域的算法大师、华盛顿大学教授Pedro Domingos对此进行了深入思考。  在我们新近翻译的《智能Web算法》(第2版)中,对Pedro Domingos教授的观点进行了高度的概括,提炼出12个注意点,为行业开发实践提供了重要...

2019-05-25 11:29:39 1031

原创 超越Spark,大数据集群计算的生产实践

spark拥有一个庞大的、不断增长的社区,还有在企业环境中不可或缺的生态系统。这些生态系统提供了不同生产环境案例所需的许多功能。一般来说,Spark 应用做的是机器学习算法日志聚合分析或者商务智能相关的运算,因为它在许多领域都有广泛的应用,包括商务智能、数据仓库、推荐系统、反欺诈等。本文会介绍 spark核心社区开发的生态系统库,以及 ML/MLlib 及 Spark Streaming sp...

2019-05-24 11:30:02 364

原创 十分钟了解大数据处理的五大关键技术及其应用

其中主要工作环节包括:♦ 大数据采集、♦ 大数据预处理、♦ 大数据存储及管理、♦ 大数据分析及挖掘、♦ 大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。一、大数据采集技术数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重...

2019-05-24 11:30:00 783

原创 用大白话告诉你小白都能看懂的Hadoop架构原理

HADOOP是目大数据领域最主流的一套技术体系,包含了多种技术,例如 HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统)等等。有些朋友可能听说过Hadoop,但是却不太清楚它到底是个什么东西,这篇文章就用大白话给各位阐述一下。假如你现在公司里的数据都是放在 MySQL 里的,那么就全部放在一台数据库服务器上,我们就假设这台服务...

2019-05-24 11:29:58 473

原创 Hadoop大数据平台架构与实践

Apache Hadoop软件库是一个框架,允许使用简单的编程模型,在计算机集群分布式地处理大型数据集。一、什么是Apache Hadoop?1.1 定义和特性可靠的、可扩展的、分布式计算开源软件。Apache hadoop软件库是一个框架,允许使用简单的编程模型,在计算机集群分布式地大数据处理它可以从单个服务器扩展到数千台机器,每个机器都提供本地计算和存储。每一台计算机都...

2019-05-24 11:29:56 396

原创 云计算、大数据、人工智能本质的区别和关系

对一个大数据公司,积累了大量的数据,也会使用一些人工智能的算法提供一些服务。对于一个人工智能公司,也不可能没有大数据平台支撑。所以云计算,大数据,人工智能就这样整合起来,完成了相遇,相识,相知。一、云计算最初是实现资源管理的灵活性我们首先来说云计算,云计算最初的目标是对资源的管理,管理的主要是计算,存储,网络资源。1.1 管数据中心就像配电脑什么叫计算,存储,网络资...

2019-05-24 11:29:54 5082 1

原创 八年老程序员教你读懂PySpark数据框(附实例)

数据框是现代行业的流行词。人们往往会在一些流行的数据分析语言中用到它,如Python、Scala、以及R。 那么,为什么每个人都经常用到它呢?让我们通过PySpark数据框教程来看看原因。在本文中,我将讨论以下话题:• 什么是数据框?• 为什么我们需要数据框?•数据框的特点• PySpark数据框的数据源•创建数据框• PySpark数据框实例:国际足联世...

2019-05-23 11:29:55 598

原创 零基础学习大数据挖掘的33个知识点整理

下面是一些关于大数据挖掘的知识点,网络大数据和大家一起来学习一下。1. 数据、信息和知识是广义数据表现的不同形式。2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本...

2019-05-23 11:29:53 525

原创 大数据与数据挖掘的相对绝对关系

数据不是信息,而是有待理解的原材料。但有一件事是确定无疑的:当NSA为了从其海量数据中“挖掘”出信息,耗资数十亿改善新手段时,它正受益于陡然降落的计算机存储和处理价格。麻省理工学院的研究者约翰·古塔格(John Guttag)和柯林·斯塔尔兹(Collin Stultz)创建了一个计算机模型来分析之心脏病病患丢弃的心电图数据。他们利数据挖掘和机器学习在海量的数据中筛选,发现心电图中出现三类异常...

2019-05-23 11:29:51 885

原创 Hadoop,Zookeeper这些名字都是怎么来的呢

首先我们要明白,Apache 是一个 http 服务器,而我们熟悉的另一种说法ApacheHadoop中的 Apache 则指的是 Apache 软件基金会。Apache是 Apache 软件基金会中的一个项目。关于其名字,流传最广的解释是(也是最显而易见的):这个名字来自于一个事实:当Apache在1995年初开发的时候,它是由当时最流行的HTTP服务器NCSA HTTPd 1.3的代码修...

2019-05-23 11:29:49 421

原创 五个顶级的大数据架构

自从像AWS这样的公共云产品开辟了大数据分析功能以来,小企业通过挖掘大量数据做到只有大企业才能做到的事情,至今大约有10年时间。这些事情其中包括网络日志、客户购买记录等,并通过按使需付费的方式提供低成本的商品集群。在这十年中,这些产品蓬勃发展,涵盖了从实时(亚秒级延迟)流媒体式分析到用于分析批量模式工作的企业数据仓库,而企业数据仓库则可能需要数天或数周才能完成。以下将介绍用于大数据堆积的...

2019-05-22 11:29:30 516

原创 老程序员告诉你大数据Hadoop入门需要填的坑

Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点。1、Hadoop生态概况HADOOP是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可...

2019-05-22 11:29:28 386

原创 如何使用HBase?大数据存储的两个实战场景

hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,适用于结构化的存储,底层依赖于Hadoop的HDFS,利用hbase可在廉价PCServer上搭建起大规模结构化存储集群。因此HBase被广泛使用在大数据存储的解决方案中。为何使用hbaseHBase的优点:- 列可以动态增加,并且列为空就不存储数据,节省存储空间。- Hbase自动切分数据,使得数据存储自动具有水平...

2019-05-22 11:29:25 377

原创 大数据使用的5种主要数据挖掘技术

IBM估计,仅过去的两年就产生了世界上百分之九十的数据。每天人们产生2.5兆字节的数据,足以填满1000万个蓝光光盘。数据挖掘技术帮助专业人员了解可用数据集。这些技术可以为企业和其他组织提供描述性和预测性的能力。5个数据挖掘技术1. 关联规则关联规则使两个或多个项之间的关联以确定它们之间的模式。例如,超市可以确定顾客在买草莓时也常买鲜奶油,反之亦然。关联通常用于销售点系统,以确...

2019-05-22 11:29:22 1597

原创 人工智能与大数据开发的12个注意点

人工智能是近年来科技发展的重要方向,在大数据时代,对数据采集、挖掘、应用的技术越来越受到瞩目。在人工智能和大数据的开发过程中,有哪些特别需要注意的要点?人工智能领域的算法大师、华盛顿大学教授Pedro Domingos对此进行了深入思考。Pedro Domingos教授的观点概括下来,可以提炼出12个注意点,为行业开发实践提供了重要参考:注意点1:你的数据未必可靠在实际应用中,有很...

2019-05-22 11:29:19 305

原创 Java专业转行学习大数据,如何提高大数据技术并快速上手?

大数据处理技术怎么学习呢?在做大数据开发之前,因为Hadoop是高层次的语言开发,需要懂得Java或者Python,很快的就能上手。其实大数据并不是一种概念,而是一种方法论。简单来说,就是通过分析和挖掘全量的非抽样的数据辅助决策。大数据可以实现的应用可以概括为两个方向,一个是精准化定制,第二个是预测。比如像通过搜索引擎搜索同样的内容,每个人的结果却是大不相同的。再比如精准营销、百度的推广、淘宝的...

2019-05-21 12:03:31 291

原创 攻关克难:大数据系统中的预测技术

大数据分析近年来逐渐成为预测分析技术的代名词。这使得越来越多的人以为,任何用于预测分析的系统都必定涉及大数据;而反过来,任何大数据系统自然也一定会支持预测建模。而事实上,这两者并非一回事。尽管通过访问海量数据与新的数据类型,开发出更好的预测模型的能力会得到显著增强。但是分析管理人员与其团队需要更多考虑数据的构成,以及在大数据环境中如何管理这类基础性问题。首先,让我们审视预测分析过程本身。在主...

2019-05-21 12:03:28 966

原创 大数据学习入门之Hadoop基础学习

目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。前言目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。基础概念大数据的本质一、数据的存储:分布式文件系统(分布式存储)二、数据的计...

2019-05-21 12:03:23 251

原创 如何将Hadoop存储容量提升4倍?

在Hadoop 1.0中,HDFS的单NameNode设计带来诸多问题,包括单点故障、内存受限制约集群扩展性和缺乏隔离机制(不同业务使用同一个NameNode导致业务相互影响)等。为了解决这些问题,Hadoop2.0就引入了基于共享存储的HA解决方案和HDFS Federation,HDFS Federation是指HDFS集群可同时存在多个NameNode,这些NameNode分别管理一部分数据...

2019-05-21 12:03:18 316

原创 Hadoop生态组件Yarn之长期运行服务支持篇!

众所周知,Yarn是大数据核心调度组件,其使用覆盖率非常高。在Hadoop是否已失宠”的选题调研中,不少专家都对Yarn这一核心组件的生命力表达了自己的看法。阿里云技术专家封神认为,Yarn在离线与在线数据混合方面表现欠佳,但这也是其背景使然,支持Yarn的几家公司主要做离线系统,对在线系统部署问题关注不够。当然,目前市场已经存在具备一定竞争关系的产品,比如Mesos,但这两大调度系统的设计目...

2019-05-21 12:01:04 252

原创 大数据入门学习之HBase MapReduce的实战分析和演练

跟hadoop的无缝集成使得使用MapReduce对habse的数据进行分布式计算非常方便,本文将以前面的blog示例,介绍HBase下MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解。HBase MapReduce核心类介绍首先一起来回顾下MapReduce的基本编程模型,可以看到最基本的是通过Mapper和Reducer...

2019-05-21 12:00:41 484

原创 人工智能与大数据的应用和指引方向

在计算机科学中,人工智能研究的领域将自己定义为“智能代理AI和大数据:完美结合”的研究:任何设备都能感知到它的环境,并采取一些行为最大化其在一些目标上获得成功的机会。人工智能(AI)已经存在几十年了。然而,最近随着“大数据”的出现,它得到了越来越多的关注。维基百科对人工智能的释义如下:在计算机科学中,人工智能研究的领域将自己定义为“智能代理AI和大数据:完美结合”的研究:任何设备都能感知到它的...

2019-05-21 12:00:18 4998

原创 程序员转行学大数据技术的4个E你掌握么有?

大数据的4个V说法在业界已经尽人皆知,这是指的大数据本身的特征。现在我们来考察一下用于处理大数据的技术应该具有的特性。为方便记忆,类似4个V,我们把这些特性总结成4个E,用户在选择大数据技术解决方案时可作为参考。1. Easy 大数据技术要足够简单易用这个E很容易理解。要进行大数据处理的场景很多,涉及工作人员也是各种各样的。如果技术的难度太大,那会导致只有少数人能应用,而且实施复杂度较高...

2019-05-21 12:00:13 377

原创 HBase从入门到精通系列:误删数据如何抢救?

有时候我们操作数据库的时候不小心误删数据,这时候如何找回?mysql里有binlog可以帮助我们恢复数据,但是没有开binlog也没有备份就尴尬了。如果是HBase,你没有做备份误删了又如何恢复呢?数据保护当误删数据发生时候,不管三七二十一,第一要务是进入hbase shell,执行如下命令:如果误删一张表的有多个family里的数据,需要都执行一下:alter 'tt', { N...

2019-05-21 11:23:46 171

原创 大数据框架分布式部署

大数据内容都是在伪分布式下完成的,若想了解伪分布式,可以找前几天的内容,今天主要是针对与分布式部署。安装方式在Linux上手动将配置好的Hadoop分发给其他机器。不使用工具。Linux环境的配置:ip(几台虚拟机都在一个网段中)主机名(主机名最好一样,后面跟个数字)本地映射,DNS,防火墙,selinux(/etc/selinux/config)扩展:Hadoop启动...

2019-05-21 11:23:42 446

原创 54个大数据hadoop面试经典题

参考下面的M R系统的场景:HDFS 块大小为64MB;输入类型为FileInputFormat;有三个文件大小分别是:0.在Hadoop中定义的主要公用InputFormat中,默认是哪一个?(A)A、 TextInputFormatB、 KeyValueInputFormatC、 SequenceFileInputFormat1. 下面哪个程序负责 HDFS 数据存储?(C)...

2019-05-20 12:20:02 326

原创 正确面对大数据这一面

这就是大数据的另一面。在互联网世界的话语体系里,大数据通常被形容为无所不能,所谓“比你更了解你自己”,用精确的算法给用户画像,继而提供“投食”般的服务。主流看法认为,大数据创造了一种新业态、新模式,给人们提供了前所未有的便捷,甚至在网上政务建设方面也大有作为,然而这并不意味着它就是无可指责的。大数据固然波澜壮阔,但也隐藏着许多风险,“杀熟欺生”是一种,“隐私泄露”也一直受到关注。某媒体曾报道称,7...

2019-05-20 12:19:02 446

原创 人工智能与大数据开发的12个注意点

人工智能是近年来科技发展的重要方向,在大数据时代,对数据采集、挖掘、应用的技术越来越受到瞩目。在人工智能和大数据的开发过程中,有哪些特别需要注意的要点?人工智能领域的算法大师、华盛顿大学教授Pedro Domingos对此进行了深入思考。在我们新近翻译的《智能Web算法》(第2版)中,对Pedro Domingos教授的观点进行了高度的概括,提炼出12个注意点,为行业开发实践提供了重要参...

2019-05-20 12:18:03 240

原创 Java大数据如何利用Hadoop的力量

毫无疑问,大量的数据已经到来。到处都是数据,也有大量的数据。数据集的典型大小已经从giga字节猛增到Peta字节,并增加了复杂性。多方面的增加。数据来自不同的来源--无论是Twitter更新还是不断的社交媒体数据,这些数据在形式上都是高度非结构化的。传统关系数据库用来将所有数据存储在关系表中的时代已经过去了。公司越来越多地将Java开发角色外包给其他方面。来自Apache的大数据和相应Hadoo...

2019-05-20 12:16:33 233

原创 用于大数据处理高性能计算的4个实现步骤

如果企业需要采用处理其大数据的高性能计算,则在内部部署运营可能效果最佳。以下是企业需要了解的内容,其中包括高性能计算和Hadoop的不同之处。在大数据领域,并非每家公司都需要高性能计算(HPC),但几乎所有使用大数据的企业都采用了Hadoop式分析计算。HPC和Hadoop之间的区别很难区分,因为可以在高性能计算(HPC)设备上运行Hadoop分析作业,但反之亦然。 HPC和Hadoop分析...

2019-05-20 12:15:41 595

原创 云计算,大数据,人工智能本质和概念

要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提大数据,谈人工智能的时候也会提云计算。所以说感觉他们又相辅相成不可分割,如果是非技术的人员来讲可能比较难理解说这三个之间的相互关系,所以有必要解释一下。一、云计算最初是实现资源管理的灵活性我们首先来...

2019-05-20 12:12:41 5515 3

原创 Hadoop和企业信息管理:利用大数据的解决方案

过去几年,大数据在全球商业环境中的重要性已得到坚定的确认。2017年看起来是 Apache Hadoo pimplementation (在开源开发和更多的商业选择方面)在企业层面上,由于企业信息管理(EIM)仍然需要更多改进的大数据解决方案。数据仓库现代化、Hadoop项目级的采用和数据湖泊的使用的早期(和持续)趋势可能会继续以更快的速度向前发展。在版本1和2之间,Hadoop已经从一个主要面...

2019-05-20 12:09:02 232

原创 欧美顶尖大学是如何使用大数据的?

贝克实现这一重大里程碑,全仗数据分析,即人们常说的大数据。这需要收集大型数据集并加以分析,揭示模式与趋势。各大学越来越多地利用这种方法对学生和教职员工进行高效的支持和管理,并制定战略管理决策。从学费个性化到成绩管理,高校运营日益受到数据的驱动。“你可以说它大胆、疯狂,甚至傲慢自大。但我觉得:如果乔治亚州立大学要做一件大事,就应当以此为目标——一旦实现,就将改变世界。”乔治亚州立大学校长马克...

2019-05-20 12:08:18 498

原创 大数据的提升:Hadoop即服务的迅猛发展

云服务已经成为企业加快数字化活动的重要地点,以下便是评估HaaS提供商需要考虑的事项:Hadoop是一个基于开放源代码的软件框架,能够跨分布式集群高吞吐量处理大数据量。利基市场几年前就开始进入主流市场。随着数字化运动的快速扩展,Hadoop提供了充足的使用案例,允许使用普通商品硬件进行大数据处理。从单一服务器到多个服务器群也是高度可扩展的,每个集群都能够自我运行计算和存储。Hadoop...

2019-05-20 12:07:25 171

原创 大数据架构师从入门到精通学习宝典

其实这就是想告诉你的大数据的三个发展方向,平台搭建/优化/运维/监控、大数据开发/ 设计/ 架构、数据分析/挖掘。请不要问我哪个容易,哪个前景好,哪个钱多。先扯一下大数据的4V特征: 数据量大,TB->PB 数据类型繁多,结构化、非结构化文本、日志、视频、图片、地理位置等; 商业价值高,但是这种价值需要在海量数据之上,通过数据分析与机器学习更快速的挖...

2019-05-20 12:06:39 449

原创 大数据框架hadoop关键性作用

用于数据分析的开源Hadoop架构的巨大增长是由其结构化和非结构化数据量的增长所驱动的,并且很多权威组织也预测,未来Hadoop架构还将继续增长,并需要复杂的可访问工具来从数据中提取业务和市场信息。对于Hadoop来说,前景很乐观——开源框架旨在促进巨大数据集的分布式处理。Hadoop对企业越来越具有吸引力,因为它既可以获取大数据的好处,同时又避免了基础架构费用。联合市场研究部门最近的一份...

2019-05-19 13:06:53 456

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除