新手笔记_三水似画的博客-CSDN博客

新手笔记

关注

关注数：文章数：11 文章阅读量：2150 文章收藏量：12

作者: 三水似画

这个作者很懒，什么都没留下…

展开

Linux常用命令笔记分享

ls -l 可以写成 ll 查看清单ls -a 查看当前目录有哪些文件（包括隐藏目录）cd 切换目录cd - 返回上一次目录cd …/ 返回上一层目录cd ./ 当前目录cd ~ 返回当前用户目录（root 代表的就是~）或者就直接输入cdpwd 展示当前在那一个目录下mkdir 创建当前目录mkdir -p cc/ff 创建一个多级...

原创 2019-05-09 12:10:46 · 75 阅读 · 0 评论
Hive

**数据仓库**数据仓库简写为DW或DWH，是面向主题的、集成的、非易失的和时变的数据集合。元数据，主要记录数据仓库中模型的定义。各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。**Hive**它是基于Hadoop的一个数据仓库工具。本质上是将SQL转化为MapReduce程序利用HDFS存储数据，利用MapReduce查询分析数据。Hive组件用户接口、元数...

原创 2019-05-29 21:27:14 · 98 阅读 · 0 评论
Spark中RDD

**RDD**RDD叫做弹性分布式数据集。是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的几个。RDD具有数据流模型的特点，自动容错、位置感知性调度和可伸缩性。RDD是一个应用层面的逻辑概念。一个RDD多个分片。RDD就是一个元数据记录集，记录了RDD内存所有的关系数据。基于RDD之间的依赖，RDD会形成一个有向无环图DAG，该DAG描述了整个流式计算的...

原创 2019-06-07 13:32:36 · 294 阅读 · 0 评论
Spark基础

**spark**spark是一种快速、通用、可扩展的大数据分析引擎。spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、Spark Streaming、Graphx、MLlib等子项目。spark是基于内存计算的大数据并行计算框架。是基于MapReduce算法实现的分布式计算。**特点**快、易用、通用、兼容性。主要架构模块spark Core:...

原创 2019-06-06 00:06:49 · 110 阅读 · 0 评论
Flume

**Flume**Flume是一个分布式、可靠和高可用的海量日志采集、聚合和传输的系统。Flume分布式系统中最核心的角色是agent，内部有三个组件：Source：采集组件，用于跟数据源对接，以获取数据。Sink:下沉组件，用于往下一级agent传递数据或者往最终存储系统传递数据。Channel：传输通道组件，用于从source将数据传递到sink.配置文件#定义agent中各...

转载 2019-05-13 15:12:57 · 110 阅读 · 0 评论
Kafka知识笔记

KafkaApache Kafka是一个开源的分部式消息队列（生产者消费者模式），是由scala语言编写的，类似于JMS，是基于JMS标准实现的。Apache kafka的基本架构Kafka Cluster：由多个服务器组成。每个服务器单独的名字broker（掮客）。Kafka broker：kafka集群中包含的服务器。kafka Producer：消息生产者、发布消息到kafka集群...

转载 2019-05-12 16:08:51 · 107 阅读 · 0 评论
SolrColud、Zookeeper和Dubbox知识笔记

**SolrColud**SolrColud是Solr提供的分布式搜索方案，适合大规模容错，分布式索引和检索能力。SolrColud需要Solr基于Zookeeper部署，Zookeeper是一个集群管理软件，由于So录入C欧陆的需要由多台服务器组成。Solr集群中写数据过程1、使用solr连接SolrColud中任意的一个节点，如果连接的是slave节点，solrCloud内部机制，...

原创 2019-05-12 10:13:02 · 135 阅读 · 0 评论
MapReduce

**MapReduce**思想核心：分为治之，Map负责“分”，Reduce负责“合"MapReduce是一个分布式运算程序的编程框架。8个步骤Map阶段第一步：从hdfs读取文件，通过inputformat设定读取路径第二步：maptask要做的具体的业务逻辑。Shuffle阶段第三步：对maptask的输出进行分区第四步：对分区的数据进行排序第五步：对排序后的数据进行规...

转载 2019-05-25 10:50:03 · 97 阅读 · 0 评论
Hadoop

Hadoop最早起源于Nutch,狭义上：hadoop就是单独只带hadoop这个软件。广义上：hadoop指代大数据的一个生态圈，包括很多其他软件。hadoop历史版本0.x系列版本：hadoop当中最早的一个开源版本，在此基础上演变而来的1.x以及2.x的版本。1.x版本系列：hadoop版本当中的第二代开源版本，主要修复0.x版本的一些bug等。2.x版本系列：架构产生重大变化，...

原创 2019-05-16 10:24:18 · 115 阅读 · 0 评论
HDFS

Hdfs介绍HDFS是Hadoop Distribute FIle System的简称，是Hadoop分部式文件系统。作为最底层的分布式服务而存在。架构采用master/slave架构。一般一个HDFS集群是一个NameNode和一定数目的DataNode组成。分块存储在物理上是分块存储（block)的,在hadoop2.x版本中默认大小是128M。HDFS是设计成使用一次写入，多次...

原创 2019-05-19 20:37:43 · 892 阅读 · 0 评论
mysql中索引的使用

**索引**我们在使用sql时，在遇到sql性能下降、执行时间长时，就需要考虑用索引来帮我们解决问题。如，数据过多，关联太多的表等。创建索引create index idx_name_age_address on student(name,age,address);create table student(id int（10） auto_increment,name varchar...

原创 2019-07-18 14:15:16 · 119 阅读 · 0 评论

新手笔记

作者: 三水似画

Linux常用命令笔记分享

Hive

Spark中RDD

Spark基础

Flume

Kafka知识笔记

SolrColud、Zookeeper和Dubbox知识笔记

MapReduce

Hadoop

HDFS

mysql中索引的使用