![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
新手笔记
三水似画
这个作者很懒,什么都没留下…
展开
-
Linux常用命令笔记分享
ls -l 可以写成 ll 查看清单ls -a 查看当前目录有哪些文件(包括隐藏目录)cd 切换目录cd - 返回上一次目录cd …/ 返回上一层目录cd ./ 当前目录cd ~ 返回当前用户目录(root 代表的就是~)或者就直接输入cdpwd 展示当前在那一个目录下mkdir 创建当前目录mkdir -p cc/ff 创建一个多级...原创 2019-05-09 12:10:46 · 71 阅读 · 0 评论 -
Hive
**数据仓库**数据仓库简写为DW或DWH,是面向主题的、集成的、非易失的和时变的数据集合。元数据,主要记录数据仓库中模型的定义。各层级间的映射关系、监控数据仓库的数据状态及ETL的任务运行状态。**Hive**它是基于Hadoop的一个数据仓库工具。本质上是将SQL转化为MapReduce程序利用HDFS存储数据,利用MapReduce查询分析数据。Hive组件用户接口、元数...原创 2019-05-29 21:27:14 · 93 阅读 · 0 评论 -
Spark中RDD
**RDD**RDD叫做弹性分布式数据集。是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的几个。RDD具有数据流模型的特点,自动容错、位置感知性调度和可伸缩性。RDD是一个应用层面的逻辑概念。一个RDD多个分片。RDD就是一个元数据记录集,记录了RDD内存所有的关系数据。基于RDD之间的依赖,RDD会形成一个有向无环图DAG,该DAG描述了整个流式计算的...原创 2019-06-07 13:32:36 · 271 阅读 · 0 评论 -
Spark基础
**spark**spark是一种快速、通用、可扩展的大数据分析引擎。spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、Graphx、MLlib等子项目。spark是基于内存计算的大数据并行计算框架。是基于MapReduce算法实现的分布式计算。**特点**快、易用、通用、兼容性。主要架构模块spark Core:...原创 2019-06-06 00:06:49 · 104 阅读 · 0 评论 -
Flume
**Flume**Flume是一个分布式、可靠和高可用的海量日志采集、聚合和传输的系统。Flume分布式系统中最核心的角色是agent,内部有三个组件:Source:采集组件,用于跟数据源对接,以获取数据。Sink:下沉组件,用于往下一级agent传递数据或者往最终存储系统传递数据。Channel:传输通道组件,用于从source将数据传递到sink.配置文件#定义agent中各...转载 2019-05-13 15:12:57 · 100 阅读 · 0 评论 -
Kafka知识笔记
KafkaApache Kafka是一个开源的分部式消息队列(生产者消费者模式),是由scala语言编写的,类似于JMS,是基于JMS标准实现的。Apache kafka的基本架构Kafka Cluster:由多个服务器组成。每个服务器单独的名字broker(掮客)。Kafka broker:kafka集群中包含的服务器。kafka Producer:消息生产者、发布消息到kafka集群...转载 2019-05-12 16:08:51 · 81 阅读 · 0 评论 -
SolrColud、Zookeeper和Dubbox知识笔记
**SolrColud**SolrColud是Solr提供的分布式搜索方案,适合大规模容错,分布式索引和检索能力。SolrColud需要Solr基于Zookeeper部署,Zookeeper是一个集群管理软件,由于So录入C欧陆的需要由多台服务器组成。Solr集群中写数据过程1、使用solr连接SolrColud中任意的一个节点,如果连接的是slave节点,solrCloud内部机制,...原创 2019-05-12 10:13:02 · 114 阅读 · 0 评论 -
MapReduce
**MapReduce**思想核心:分为治之,Map负责“分”,Reduce负责“合"MapReduce是一个分布式运算程序的编程框架。8个步骤Map阶段第一步:从hdfs读取文件,通过inputformat设定读取路径第二步:maptask要做的具体的业务逻辑。Shuffle阶段第三步:对maptask的输出进行分区第四步:对分区的数据进行排序第五步:对排序后的数据进行规...转载 2019-05-25 10:50:03 · 93 阅读 · 0 评论 -
Hadoop
Hadoop最早起源于Nutch,狭义上:hadoop就是单独只带hadoop这个软件。广义上:hadoop指代大数据的一个生态圈,包括很多其他软件。hadoop历史版本0.x系列版本:hadoop当中最早的一个开源版本,在此基础上演变而来的1.x以及2.x的版本。1.x版本系列:hadoop版本当中的第二代开源版本,主要修复0.x版本的一些bug等。2.x版本系列:架构产生重大变化,...原创 2019-05-16 10:24:18 · 106 阅读 · 0 评论 -
HDFS
Hdfs介绍HDFS是Hadoop Distribute FIle System的简称,是Hadoop分部式文件系统。作为最底层的分布式服务而存在。架构采用master/slave架构。一般一个HDFS集群是一个NameNode和一定数目的DataNode组成。分块存储在物理上是分块存储(block)的,在hadoop2.x版本中默认大小是128M。HDFS是设计成使用一次写入,多次...原创 2019-05-19 20:37:43 · 891 阅读 · 0 评论 -
mysql中索引的使用
**索引**我们在使用sql时,在遇到sql性能下降、执行时间长时,就需要考虑用索引来帮我们解决问题。如,数据过多,关联太多的表等。创建索引create index idx_name_age_address on student(name,age,address);create table student(id int(10) auto_increment,name varchar...原创 2019-07-18 14:15:16 · 96 阅读 · 0 评论