～静～-CSDN博客

原创 NoSQL

基本简介 NoSQL(NoSQL = Not Only SQL )，意即“不仅仅是SQL”，是一项全新的数据库革命性运动，早期就有人提出，发展至2009年趋势越发高涨。NoSQL的拥护者们提倡运用非关系型的数据存储，相对于铺天盖地的关系型数据库运用，这一概念无疑是一种全新的思维的注入。NoSQL面临的问题：1.High performance - 对数据库高并发读写...

2019-05-23 15:47:24 3877

原创 Spark

基本概念*  RDD：是弹性分布式数据集（Resilient Distributed Dataset）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型；*  DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系；*  Executor：是运行在工作节点（Worker Node）上的一个进程，负责运行任务，并为应用程序...

2019-05-23 15:44:49 255

原创 Hive

定义 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载(ETL)，这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 redu...

2019-05-23 15:44:35 127

原创 HBase

模型(1)逻辑模型Hbase的名字的来源是Hadoop database，即hadoop数据库。主要是从用户角度来考虑，即如何使用Hbase。(2)物理模型主要从实现Hbase的角度来讨论。访问接口1. Native Java API，最常规和高效的访问方式，适合Hadoop MapReduce Job并行批处理HBase表数据。2. HBase Shell，HBa...

2019-05-23 15:44:22 232

原创 MapReduce

MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"，和它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。主要技术特征1．向"外"横向扩展，而非向"上"纵向扩展2．失效被认为是常态3．...

2019-05-23 15:44:10 247

原创 HDFS

定义： Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时，它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实...

2019-05-23 15:43:55 1489

原创 Hadoop集群

目的了解如何安装、配置和管理有实际意义的Hadoop集群，其规模可从几个节点的小集群到几千个节点的超大集群。先决条件一、确保在你集群中的每个节点上都安装了所有必需软件。二、获取Hadoop软件包。安装安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。集群配置要配置Hadoop集群，你需要设置Hadoop守护进程的运行环境和Hadoop守护进程的运行参数。...

2019-05-23 15:43:38 182

原创大数据的典型工具

1.HadoopHadoop是一个能够对大量数据进行分布式处理的软件框架，是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松的在Hadoop上开发和运行处理海量数据的应用程序。2.SparkSpark是一个基于内存计算的开源集群计算系统，目的是更快速的进行数据分析。Spark是由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发的，其核心部分的代码只有63个S...

2019-05-22 10:17:42 266

转载 Hadoop生态圈

一、简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。二、HDFSHadoop Distributed File System，简称HDFS，是个分布式文件系统，是hadoop的一个核心部分。HDFS有这高容错性(fault-...

2019-05-22 10:17:10 896

原创爬虫软件

一、八爪鱼采集器八爪鱼采集器分为简易采集和自定义采集，简易采集器内置主流数据源，无需配置，一键采集；而自定义采集可以自由配置，灵活契合所有业务场景。简介：八爪鱼采集器是一款可视化采集器，内置采集模板，支持各种网页数据采集。优点：支持自定义模式，可视化采集操作，容易上手；支持简易采集模式，提供官方采集模板，支持云采集操作；支持防屏蔽措施，例如代...

2019-05-22 10:16:54 475

ljsljs995996的博客