IT时代周刊

最新的IT资讯科技

超越Spark,大数据集群计算的生产实践

spark拥有一个庞大的、不断增长的社区,还有在企业环境中不可或缺的生态系统。这些生态系统提供了不同生产环境案例所需的许多功能。一般来说,Spark 应用做的是机器学习算法日志聚合分析或者商务智能相关的运算,因为它在许多领域都有广泛的应用,包括商务智能、数据仓库、推荐系统、反欺诈等。 本文会介绍...

2019-05-24 11:30:02

阅读数 9

评论数 0

十分钟了解大数据处理的五大关键技术及其应用

其中主要工作环节包括: ♦ 大数据采集、 ♦ 大数据预处理、 ♦ 大数据存储及管理、 ♦ 大数据分析及挖掘、 ♦ 大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。 一、大数据采集技术 数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得...

2019-05-24 11:30:00

阅读数 183

评论数 0

用大白话告诉你小白都能看懂的Hadoop架构原理

HADOOP是目大数据领域最主流的一套技术体系,包含了多种技术,例如 HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统)等等。 有些朋友可能听说过Hadoop,但是却不太清楚它到底是个什么东西,这篇文章就用大白话给各位阐述一下。 假如你...

2019-05-24 11:29:58

阅读数 97

评论数 0

Hadoop大数据平台架构与实践

Apache Hadoop软件库是一个框架,允许使用简单的编程模型,在计算机集群分布式地处理大型数据集。 一、什么是Apache Hadoop? 1.1 定义和特性 可靠的、可扩展的、分布式计算开源软件。 Apache hadoop软件库是一个框架,允许使用简单的编程模型,在计算机集群分布...

2019-05-24 11:29:56

阅读数 82

评论数 0

云计算、大数据、人工智能本质的区别和关系

对一个大数据公司,积累了大量的数据,也会使用一些人工智能的算法提供一些服务。对于一个人工智能公司,也不可能没有大数据平台支撑。所以云计算,大数据,人工智能就这样整合起来,完成了相遇,相识,相知。 一、云计算最初是实现资源管理的灵活性 我们首先来说云计算,云计算最初的目标是对资源的管理,管理的主...

2019-05-24 11:29:54

阅读数 130

评论数 0

八年老程序员教你读懂PySpark数据框(附实例)

数据框是现代行业的流行词。人们往往会在一些流行的数据分析语言中用到它,如Python、Scala、以及R。 那么,为什么每个人都经常用到它呢?让我们通过PySpark数据框教程来看看原因。在本文中,我将讨论以下话题: • 什么是数据框? • 为什么我们需要数据框? •数据框的特点 • Py...

2019-05-23 11:29:55

阅读数 124

评论数 0

零基础学习大数据挖掘的33个知识点整理

下面是一些关于大数据挖掘的知识点,网络大数据和大家一起来学习一下。 1. 数据、信息和知识是广义数据表现的不同形式。 2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识 3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘 4. 一般地...

2019-05-23 11:29:53

阅读数 136

评论数 0

大数据与数据挖掘的相对绝对关系

数据不是信息,而是有待理解的原材料。但有一件事是确定无疑的:当NSA为了从其海量数据中“挖掘”出信息,耗资数十亿改善新手段时,它正受益于陡然降落的计算机存储和处理价格。 麻省理工学院的研究者约翰·古塔格(John Guttag)和柯林·斯塔尔兹(Collin Stultz)创建了一个计算机模型来...

2019-05-23 11:29:51

阅读数 122

评论数 0

Hadoop,Zookeeper这些名字都是怎么来的呢

首先我们要明白,Apache 是一个 http 服务器,而我们熟悉的另一种说法ApacheHadoop中的 Apache 则指的是 Apache 软件基金会。Apache是 Apache 软件基金会中的一个项目。 关于其名字,流传最广的解释是(也是最显而易见的):这个名字来自于一个事实:当Apa...

2019-05-23 11:29:49

阅读数 130

评论数 0

五个顶级的大数据架构

自从像AWS这样的公共云产品开辟了大数据分析功能以来,小企业通过挖掘大量数据做到只有大企业才能做到的事情,至今大约有10年时间。这些事情其中包括网络日志、客户购买记录等,并通过按使需付费的方式提供低成本的商品集群。在这十年中,这些产品蓬勃发展,涵盖了从实时(亚秒级延迟)流媒体式分析到用于分析批量模...

2019-05-22 11:29:30

阅读数 176

评论数 0

老程序员告诉你大数据Hadoop入门需要填的坑

Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠、高效、可伸缩的特点。 1、Hadoop生态概况 HADOOP是一个由Apache基金会所开发的分布式系统集成架构,用户可以在...

2019-05-22 11:29:28

阅读数 104

评论数 0

如何使用HBase?大数据存储的两个实战场景

hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,适用于结构化的存储,底层依赖于Hadoop的HDFS,利用hbase可在廉价PCServer上搭建起大规模结构化存储集群。因此HBase被广泛使用在大数据存储的解决方案中。 为何使用hbase HBase的优点: - 列可以动...

2019-05-22 11:29:25

阅读数 113

评论数 0

大数据使用的5种主要数据挖掘技术

IBM估计,仅过去的两年就产生了世界上百分之九十的数据。每天人们产生2.5兆字节的数据,足以填满1000万个蓝光光盘。 数据挖掘技术帮助专业人员了解可用数据集。这些技术可以为企业和其他组织提供描述性和预测性的能力。 5个数据挖掘技术 1. 关联规则 关联规则使两个或多个项之间的关联以确定它...

2019-05-22 11:29:22

阅读数 121

评论数 0

人工智能与大数据开发的12个注意点

人工智能是近年来科技发展的重要方向,在大数据时代,对数据采集、挖掘、应用的技术越来越受到瞩目。在人工智能和大数据的开发过程中,有哪些特别需要注意的要点? 人工智能领域的算法大师、华盛顿大学教授Pedro Domingos对此进行了深入思考。 Pedro Domingos教授的观点概括下来,可以提...

2019-05-22 11:29:19

阅读数 113

评论数 0

Java专业转行学习大数据,如何提高大数据技术并快速上手?

大数据处理技术怎么学习呢?在做大数据开发之前,因为Hadoop是高层次的语言开发,需要懂得Java或者Python,很快的就能上手。 其实大数据并不是一种概念,而是一种方法论。简单来说,就是通过分析和挖掘全量的非抽样的数据辅助决策。大数据可以实现的应用可以概括为两个方向,一个是精准化定制,第二个是...

2019-05-21 12:03:31

阅读数 48

评论数 0

攻关克难:大数据系统中的预测技术

大数据分析近年来逐渐成为预测分析技术的代名词。这使得越来越多的人以为,任何用于预测分析的系统都必定涉及大数据;而反过来,任何大数据系统自然也一定会支持预测建模。 而事实上,这两者并非一回事。尽管通过访问海量数据与新的数据类型,开发出更好的预测模型的能力会得到显著增强。但是分析管理人员与其团队需要更...

2019-05-21 12:03:28

阅读数 75

评论数 0

大数据学习入门之Hadoop基础学习

目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。 前言 目前人工智能和大数据火热,使用的场景也越来越广,日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些...

2019-05-21 12:03:23

阅读数 73

评论数 0

如何将Hadoop存储容量提升4倍?

在Hadoop 1.0中,HDFS的单NameNode设计带来诸多问题,包括单点故障、内存受限制约集群扩展性和缺乏隔离机制(不同业务使用同一个NameNode导致业务相互影响)等。为了解决这些问题,Hadoop2.0就引入了基于共享存储的HA解决方案和HDFS Federation,HDFS Fe...

2019-05-21 12:03:18

阅读数 53

评论数 0

Hadoop生态组件Yarn之长期运行服务支持篇!

众所周知,Yarn是大数据核心调度组件,其使用覆盖率非常高。在Hadoop是否已失宠”的选题调研中,不少专家都对Yarn这一核心组件的生命力表达了自己的看法。 阿里云技术专家封神认为,Yarn在离线与在线数据混合方面表现欠佳,但这也是其背景使然,支持Yarn的几家公司主要做离线系统,对在线系统部...

2019-05-21 12:01:04

阅读数 57

评论数 0

大数据入门学习之HBase MapReduce的实战分析和演练

跟hadoop的无缝集成使得使用MapReduce对habse的数据进行分布式计算非常方便,本文将以前面的blog示例,介绍HBase下MapReduce开发要点。很好理解本文前提是你对Hadoop MapReduce有一定的了解。 HBase MapReduce核心类介绍 首先一起来回顾下M...

2019-05-21 12:00:41

阅读数 66

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭