自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 NoSQL

基本简介 ​NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”,是一项全新的数据库革命性运动,早期就有人提出,发展至2009年趋势越发高涨。NoSQL的拥护者们提倡运用非关系型的数据存储,相对于铺天盖地的关系型数据库运用,这一概念无疑是一种全新的思维的注入。NoSQL面临的问题:1.High performance - 对数据库高并发读写...

2019-05-23 15:47:24 3877

原创 Spark

基本概念*  RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型;*  DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系;*  Executor:是运行在工作节点(Worker Node)上的一个进程,负责运行任务,并为应用程序...

2019-05-23 15:44:49 255

原创 Hive

定义 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 redu...

2019-05-23 15:44:35 127

原创 HBase

模型(1)逻辑模型Hbase的名字的来源是Hadoop database,即hadoop数据库。主要是从用户角度来考虑,即如何使用Hbase。(2)物理模型主要从实现Hbase的角度来讨论。访问接口1. Native Java API,最常规和高效的访问方式,适合Hadoop MapReduce Job并行批处理HBase表数据。2. HBase Shell,HBa...

2019-05-23 15:44:22 232

原创 MapReduce

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。主要技术特征1.向"外"横向扩展,而非向"上"纵向扩展2.失效被认为是常态3....

2019-05-23 15:44:10 247

原创 HDFS

定义: Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实...

2019-05-23 15:43:55 1489

原创 Hadoop集群

目的了解如何安装、配置和管理有实际意义的Hadoop集群,其规模可从几个节点的小集群到几千个节点的超大集群。先决条件一、确保在你集群中的每个节点上都安装了所有必需软件。二、获取Hadoop软件包。安装安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。集群配置要配置Hadoop集群,你需要设置Hadoop守护进程的运行环境和Hadoop守护进程的运行参数。...

2019-05-23 15:43:38 182

原创 大数据的典型工具

1.HadoopHadoop是一个能够对大量数据进行分布式处理的软件框架,是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松的在Hadoop上开发和运行处理海量数据的应用程序。2.SparkSpark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark是由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发的,其核心部分的代码只有63个S...

2019-05-22 10:17:42 266

转载 Hadoop生态圈

一、简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。二、HDFSHadoop Distributed File System,简称HDFS,是个分布式文件系统,是hadoop的一个核心部分。HDFS有这高容错性(fault-...

2019-05-22 10:17:10 896

原创 爬虫软件

一、八爪鱼采集器八爪鱼采集器分为简易采集和自定义采集,简易采集器内置主流数据源,无需配置,一键采集;而自定义采集可以自由配置,灵活契合所有业务场景。简介:八爪鱼采集器是一款可视化采集器,内置采集模板,支持各种网页数据采集。优点:支持自定义模式,可视化采集操作,容易上手; 支持简易采集模式,提供官方采集模板,支持云采集操作; 支持防屏蔽措施,例如代...

2019-05-22 10:16:54 475

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除