大数据起步

最新推荐文章于 2022-03-03 23:20:22 发布

Jonny的ICU

最新推荐文章于 2022-03-03 23:20:22 发布

阅读量311

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/m0_37338590/article/details/72808921

版权

大数据专栏收录该内容

14 篇文章 0 订阅

订阅专栏

大数据处理的共同特征：

1）数据分布在多个节点 2）计算程序靠近离数据更近 3）数据处理尽量在本地完成 4）顺序读取的I/O代替随机读取的I/O

大数据编程模型：

1）大规模并行处理数据库系统（Massively Parallel Processing , MMP）:EMC公司的Greenmlum系统和IBM 公司的Netezza系统

2）内存数据库系统：Oracle的Exalytics和SAP公司的HANA系统

3）MapReduce系统，Hadoop

4)整体同步并行系统（Bulk srnchronous parallel ,BSP）系统：Apache HAMA 和Apache Giraph

Hadoop系统组成（基于Hadoop 1.x）

守护进程：

1）名称节点（构建大型计算集群系统的瓶颈） 2）辅助名称节点 3）作业跟踪器（构建大型计算集群系统的瓶颈） 4）任务跟踪器

主要的两种类型的节点：主节点和次节点

主节点负责执行的守护进程：名称节点进程，辅助名称节点进程，作业跟踪器进程

次节点负责执行的守护进程：数据节点进程，任务跟踪器进程

未完待续。。。。。。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Jonny的ICU

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

数据仓库综述

wwwlgy的专栏

08-29

1482

本文描述了大数据，数据建仓的一些基本概念，以及每个部分的一些常用工具

大数据数据库的技术对垒：MapReduce vs. MPP［作者：李明］

“大数据社区”博客

11-16

1万+

大数据数据库的技术对垒：MapReduce vs. MPP --作者：李明(email: mli@pivotal.io) 这些年大数据概念已经成为IT界的热门，我们经常也会在新闻和报纸中看到。大数据概念中最为关键的技术就是数据库管理系统，伴随着hadoop和MapReduce技术的流行，大数据的数据库中Hive和

参与评论您还未登录，请先登录后发表或查看评论

企业大数据如何起步：先做好小数据分析

bug在左，生活在右

02-27

831

目前国内外关于大数据的谈论很多，大多是谈运营级别的，或者说从服务端、服务方提得较多一些。笔者要跟大家交流的问题是作为各类企业尤其是客户方的企业来说，大数据跟他们有什么关系，或者说作为企业方怎样去参与，这是企业方现在面临的最大问题。这个问题的答案重点在于大数据应该从小数据开始。因为现在很多企业面临的最大问题不是怎么用大数据，而是内部的一些小数据整合出现问题，或者小数据都没用好的情况下怎么用大数据

Hadoop随笔（一）

弄鹊

02-02

1307

Hadoop原书读书笔记

MMP数据库greenplum,与hadoop的区别

pasen_newer的博客

03-03

3845

1.什么是greenplum？一种MMP 无共享架构的数据库，擅长olap联机分析。基于postgre内核，interconnect并行调度，分布式事务两段提交，还有分区表外部表行列存储高可用。 2.greenplum的架构及功能？一个集群由多个数据库实例组成。 master:生成查询计划并派发协调segement并行计算 interconnect组件 segement:执行查询计划及数据存储管理 3.greenplum特点（1）数据存储：以行列表的方式进行存储，采用hash分

第二章 大数据技术概述

weixin_64201202的博客

01-10

3883

2.1 大数据技术的产生 大数据的基本概念 1、什么是大数据？大数据（Big data或Megadata）：大数据，或称巨量数据、海量数据、大资料，指的是所涉及的数据量规模巨大到无法通过人工，在合理时间达到截取、管理、处理、并整理成为人类所能解读的形式的信息。大数据新手学习交流群，如果有想学习大数据或者交流经验的都可以加入，一起互相学习交流：→→→点击我即可加入圈子2、大数据特点①Volume：数据量大，包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（

大数据研究报告

07-31

报告还指出尽管中国大数据起步较晚，但由于经济增速下行和市场竞争加剧，企业寻求精细化管理的需求促使大数据市场成长前景良好。 5. 大数据市场的发展潜力：报告通过分析发现，得益于政策支持和经济环境，大数据...

大数据-基础起步

08-07

### 大数据基础起步知识点详解 #### 一、大数据概览与定义 - **概念解析**：“大数据”作为当前商业及政府信息技术领域的热门话题，其虽然没有一个正式的定义，但通常指那些规模巨大、复杂度高且变化快速的数据集...

大数据入门、大数据基础，学习大数据必读

06-24

大数据的意义：工业革命后的 200 年里，人们对物理资源（如煤炭、石油、天然气等）的利用已经登峰造极，对新兴能源（太阳能、风能、潮汐能等）的利用也日渐成熟，但对数据资源的利用仍处于起步阶段，后续还有很长的...

bigdata-music大数据音乐推荐系统

最新发布

11-20

SpringBoot作为轻量级的框架，简化了Spring应用的初始搭建以及开发过程，提供了自动配置、内嵌式Web服务器、起步依赖等特性，使得开发高效且易于维护。 MySQL作为关系型数据库，被用于存储用户信息、歌曲信息以及...

MPP 架构数据库

weixin_30315905的博客

07-15

1971

Greenplum是一种基于postgresql的分布式数据库。其采用shared nothing架构（MPP），主机，操作系统，内存，存储都是自我控制的，不存在共享。也就是每个节点都是一个单独的数据库。节点之间的信息交互是通过节点互联网络实现。通过将数据分布到多个节点上来实现规模数据的存储，通过并行查询处理来提高查询性能。这个怎么感觉就像是把小数据库组织起来，联合成一个大型数据库。...

SMP、NUMA、MMP的简介

朱玉强的博客

05-28

4687

原文地址：《SMP、NUMA、MMP的简介》 1、什么是SMP架构 SMP是指对称多处理器结构，是指服务器中多个CPU对称工作，无主次或从属关系。各CPU共享相同的物理内存，每个 CPU访问内存中的任何地址所需时间是相同的，因此SMP也被称为一致存储器访问结构(UMA：Uniform Memory Access)。对SMP服务器进行扩展的方式包括增加内存、使用更快的CPU、增加CPU、扩充I/O(...

MPP数据库

lyc417356935的专栏

04-13

4万+

MPP数据库定义 MPP即大规模并行处理（Massively Parallel Processor ）。在数据库非共享集群中，每个节点都有独立的磁盘存储系统和内存系统，业务数据根据数据库模型和应用特点划分到各个节点上，每台数据节点通过专用网络或者商业通用网络互相连接，彼此协同计算，作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。

新型MPP数据库将支撑起大数据时代

y七心海棠的专栏

11-09

1150

新型MPP数据库

MPP(大规模并行处理)简介

热门推荐

qq_42189083的博客

06-07

13万+

1、什么是MPP？MPP (Massively Parallel Processing)，即大规模并行处理，在数据库非共享集群中，每个节点都有独立的磁盘存储系统和内存系统，业务数据根据数据库模型和应用特点划分到各个节点上，每台数据节点通过专用网络或者商业通用网络互相连接，彼此协同计算，作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。简单来说...

大数据架构和模式

白乔专栏

03-14

2万+

http://www.ibm.com/developerworks/cn/data/library/bd-archpatterns1/index.html 第 1 部分: 大数据分类和架构简介概述 大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征，包括数据的频率、量、速度、类型和真实性。处理并存储大数据时，会涉及到更多维度，比如治理、安全性和策略。选择一种架构并构

ETL、BI、MMP数据库

Julia & Rust & Python

06-21

3352

ETF工具: Informatica、Datastage、ODI ,OWB、微软DTS、Beeload、Kettle、久其ETL、 trinity 、talend Teradata的ETL Automation、Business Objects公司的Data Integrator、Cognos公司的DecisionStream BI: smart Bi, 永洪，帆软，MSTR，Tableau...

大数据Map Reduce 和 MPP数据库的区别

rav009的专栏

09-06

1万+

下面在这篇文章里对MR的解释很好,从原理的角度出发,mapreduce其实就是二分查找的一个逆过程,不过因为计算节点有限,所以map和reduce前都预先有一个分区的步骤.二分查找要求数据是排序好的,所以Map Reduce之间会有一个shuffle的过程对Map的结果排序. Reduce的输入是排好序的. https://blog.csdn.net/dreamy_lin/arti...

决策树的剪枝操作

Jonny

07-17

1万+

首先先介绍几个基本概念：决策树(Decision Tree）：在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。拟合：所谓拟合是指已知某函数的若干离散函数值{f1,f2,…,fn}，通过调整该函数中若干待定系数f(λ1, λ2,…