2018年12月_qq_32182461

原创大数据学习8

mapreduce优点：海量数据离线处理&易开法&容易运行mapreduce缺点：无法实现流式计算分布式计算小案例：统计海量数据文件中的词频流程分析：1.首先将输入的文件拆分成多个文件快（spliting）2.每台机器统计每个文件快中的单词次数，根据空格等正则来拆分单词（mapping）3.每个节点将会吧相同的单词发送到特定的某台机器上，这样每个机器就会...

2018-12-31 10:19:15 197

原创大数据学习7

yarn环境搭建：1.配置文件：etc/hadoop/mapred-site.xml: <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>告诉hadoop框架m...

2018-12-31 09:08:33 180

原创大数据学习6

yarn：hadoop的资源调度框架yarn架构： yarn执行流程：

2018-12-24 23:59:01 106

转载大数据学习5

hdfs读写流程：首先看看出场的角色，第一个是client客户端，用来发起读写请求，读取HDFS上的文件或往HDFS中写文件；第二个是Namenode，唯一的一个，会协调所有客户端发起的请求；第三个是DataNode，负责数据存储，跟Namenode不一样，DataNode有很多个，有时候能达到数以千计。写数据流程往HDFS中写数据的流程如下：第1幅图：我们跟客户端说，你帮...

2018-12-23 22:36:30 109

原创大数据学习4

hdfs javaApi实战：maven：<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.0</version></dep

2018-12-23 22:33:25 132

原创大数据学习3

hadoop集群的安装：linux下需要安装ssh客户端：yum install ssh需要安装java客户端，1.7及以上就好hadoop的nn与dn之间需要在linux上通信，我们需要设置免密链接ssh客户端使用命令 ssh-keygen -t rsa 一路回车使用ls -la 可以看见.ssh文件进入.ssh目录,执行 cat ./id_rsa.pub >&gt...

2018-12-22 22:38:30 106

原创大数据学习2

如何自己设计分布式文件系统？ hdfs架构及概念：相关概念：hdfs副本机制：nameNode上存储的文件数据的文件名，副本系数，以及副本在那个datanode上面存储的信息。 hdfs副本存放策略：黄色表示请求的客户端所在的服务器绿色表示副本存放的位置通常第一个副本会与客户端存放在同一个服务器上 ...

2018-12-22 20:25:37 132

原创大数据学习1

大数据的定义特征：多样的数据类型，快速的数据流转，海量的数据规模，以及数据的价值。大数据设计的技术：数据采集，数据处理，数据存储，可视化。 hadoop学习：hdfs（分布式文件存储），yarn（作业调度框架），mapreduce（分布式计算）。yarn：可扩展，容错性，多框架资源统一调度hdfs：可扩展，容错性，海量数据存储mapreduce:可扩展，容错性,...

2018-12-22 00:02:48 105

转载 mysql索引类型

如大家所知道的，Mysql目前主要有以下几种索引类型：FULLTEXT，HASH，BTREE，RTREE。那么，这几种索引有什么功能和性能上的不同呢？FULLTEXT即为全文索引，目前只有MyISAM引擎支持。其可以在CREATE TABLE ，ALTER TABLE ，CREATE INDEX 使用，不过目前只有 CHAR、VARCHAR ，TEXT 列上可以创建全文索引。值得一提的...

2018-12-17 19:01:39 123

LC_HYQ的博客