大数据
文章平均质量分 80
Hacker_Wind
这个作者很懒,什么都没留下…
展开
-
大数据基础知识集合
一、大数据的基本概念大数据,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。简单说就是将大量的数据通过类比和分类,分为众多较小型数据,将各个小型数据集合并后进行分析便可得出许多额外的信息和数据关系性,以此用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等。二、数据仓库数据仓库,是一个面向主题的(Subject Oriented)、集成的原创 2018-01-22 19:37:37 · 2793 阅读 · 0 评论 -
大数据基础知识集合(二)
一、分布式系统分布式系统是若干独立计算机的集合,这些计算机对于用户来说就像是单个相关系统。从进程角度看,两个程序分别运行在两个台主机的进程上,它们相互协作最终完成同一个服务(或者功能),那么理论上这两个程序所组成的系统,也可以称作是“分布式系统”。当然,这个两个程序可以是不同的程序,也可以是相同的程序。如果是相同的程序,我们又可以称之为“集群”。所谓集群,就是将相同的程序,原创 2018-01-23 19:11:49 · 673 阅读 · 0 评论 -
大数据基础知识集合(三)
一、Hadoop1、MapReduce——Hadoop的核心MapReduce是一个可以对大量数据进行分布式处理的软件框架,MapReduce的重要创新是当处理一个大数据集查询时会将其任务分解并在运行的多个节点中处理。当数据量很大时就无法在一台服务器上解决问题,此时分布式计算优势就体现出来。将这种技术与Linux服务器结合可获得性价比极高的替代大规模计算阵列的方法。2、HDFS原创 2018-01-24 19:51:18 · 1069 阅读 · 0 评论 -
大数据知识集合(四)
一、校验和检验和,在数据处理和数据通信领域中,用于校验目的地一组数据项的和。它通常是以十六进制为数制表示的形式。如果校验和的数值超过十六进制的FF,也就是255. 就要求其补码作为校验和。通常用来在通信中,尤其是远距离通信中保证数据的完整性和准确性。这些数据项可以是数字或在计算检验的过程中看作数字的其它字符串。校验和(checksum)是指传输位数的累加,当传输结束时,接收者可以根据这个数原创 2018-01-27 09:00:45 · 355 阅读 · 0 评论 -
MapReduce工作原理及流程
一、MapReduce工作原理作业执行涉及4个独立的实体1、客户端,用来提交MapReduce作业2、JobTracker,用来协调作业的运行3、TaskTracker,用来处理作业划分后的任务4、HDFS,用来在其它实体间共享作业文件首先是客户端要编写好mapreduce程序,配置好mapreduce的作业也就是job,接下来就是提交job了,提交jo原创 2018-01-27 19:54:29 · 1189 阅读 · 0 评论