![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
qq_32182461
这个作者很懒,什么都没留下…
展开
-
大数据学习1
大数据的定义特征: 多样的数据类型,快速的数据流转,海量的数据规模,以及数据的价值。 大数据设计的技术: 数据采集,数据处理,数据存储,可视化。 hadoop学习: hdfs(分布式文件存储),yarn(作业调度框架),mapreduce(分布式计算)。 yarn:可扩展,容错性,多框架资源统一调度 hdfs:可扩展,容错性,海量数据存储 mapreduce:可扩展,容错性,...原创 2018-12-22 00:02:48 · 96 阅读 · 0 评论 -
大数据学习之spark4
实战RDD数据集转化为dataFrame: 代码: package com.scala import org.apache.spark.sql.SparkSession /** * RDD数据集转化为dataFrame */ object DataframeToRDD { def main(args: Array[String]): Unit = { // 使用...原创 2019-01-12 15:42:35 · 413 阅读 · 0 评论 -
大数据学习之spark2
spark中的相关概念: RDD:是一个分布式的数据集 数据呈现非结构化,没有列名,类型等信息 dataSet: A Dataset is a distributed collection of data. Dataset is a new interface added in Spark 1.6 that provides the benefits of RDDs (strong typi...原创 2019-01-12 14:07:53 · 202 阅读 · 0 评论 -
大数据学习10
spring整合hadoop maven: <!--hadoop依赖--> <!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --> <dependency> <groupId>org.apache.hadoop</groupId> ...原创 2019-01-02 22:45:28 · 125 阅读 · 0 评论 -
大数据学习之hive3
hive中的数据定义语言(ddl): hive中的数据定义语言有如下: HiveQL DDL statements are documented here, including: CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEX //创建数据库,schama,表,视图,函数,索引 DROP DATABASE/SCHEMA, TABL...翻译 2019-01-06 19:30:07 · 335 阅读 · 1 评论 -
大数据学习之hive2
hive中支持的数据类型: 1.数值类型: TINYINT (1-byte signed integer, from -128 to 127) SMALLINT (2-byte signed integer, from -32,768 to 32,767) INT/INTEGER (4-byte signed integer, from -2,147,483,648 to 2,147...翻译 2019-01-06 15:25:18 · 167 阅读 · 0 评论 -
大数据学习之Hive
hive产生的背景: 使用mapreduce来编程很不便,需要按照mr的接口模型来编写 hdfs上的文件必须使用mr来开发,无法使用类sql语言来完成 hive是什么? hive的执行引擎: hive on mr hive on spark 等 hive体系架构: 、 hive部署架构:(hive只需要部署一个节点,关键点在于mysql需要主备部署) ...原创 2019-01-06 15:02:29 · 316 阅读 · 1 评论 -
大数据学习9
hadoop项目实战: 数据处理流程: 数据处理架构: 实战wordCount案例: package com.lc.hadoop; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; impor...原创 2019-01-01 01:40:54 · 134 阅读 · 0 评论 -
大数据学习之spark3
使用sparkSq来访问hive: sparkSql是建立在hive之上的,使用sparksql来访问hive需要在conf文件夹下配置hive-site.xml文件,该文件配置了hive中metastore相关的原数据信息 <configuration> <property> <name>javax.jdo....原创 2019-01-10 20:01:18 · 258 阅读 · 0 评论 -
大数据学习之spark
spark学习实战: 需要创建一个scala项目,需要在idea中安装scala的插件,重启之后便可创建scala项目 maven配置: <properties> <scala.version>2.11.8</scala.version> <sparkSql.version>2.1.0</sparkSql.version>...原创 2019-01-10 17:41:41 · 255 阅读 · 0 评论 -
大数据学习8
mapreduce优点:海量数据离线处理&易开法&容易运行 mapreduce缺点:无法实现流式计算 分布式计算小案例:统计海量数据文件中的词频 流程分析: 1.首先将输入的文件拆分成多个文件快(spliting) 2.每台机器统计每个文件快中的单词次数,根据空格等正则来拆分单词(mapping) 3.每个节点将会吧相同的单词发送到特定的某台机器上,这样每个机器就会...原创 2018-12-31 10:19:15 · 188 阅读 · 0 评论 -
大数据学习7
yarn环境搭建: 1.配置文件: etc/hadoop/mapred-site.xml: <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> 告诉hadoop框架m...原创 2018-12-31 09:08:33 · 170 阅读 · 0 评论 -
大数据学习6
yarn:hadoop的 资源调度框架 yarn架构: yarn执行流程:原创 2018-12-24 23:59:01 · 98 阅读 · 0 评论 -
大数据学习5
hdfs读写流程: 首先看看出场的角色,第一个是client客户端,用来发起读写请求,读取HDFS上的文件或往HDFS中写文件;第二个是Namenode,唯一的一个,会协调所有客户端发起的请求;第三个是DataNode,负责数据存储,跟Namenode不一样,DataNode有很多个,有时候能达到数以千计。 写数据流程 往HDFS中写数据的流程如下: 第1幅图:我们跟客户端说,你帮...转载 2018-12-23 22:36:30 · 99 阅读 · 0 评论 -
大数据学习4
hdfs javaApi实战: maven: <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.0</version> </dep原创 2018-12-23 22:33:25 · 122 阅读 · 0 评论 -
大数据学习3
hadoop集群的安装: linux下需要安装ssh客户端:yum install ssh 需要安装java客户端,1.7及以上就好 hadoop的nn与dn之间需要在linux上通信,我们需要设置免密链接ssh客户端 使用命令 ssh-keygen -t rsa 一路回车 使用ls -la 可以看见.ssh文件 进入.ssh目录,执行 cat ./id_rsa.pub >>...原创 2018-12-22 22:38:30 · 98 阅读 · 0 评论 -
大数据学习2
如何自己设计分布式文件系统? hdfs架构及概念 : 相关概念: hdfs副本机制: nameNode上存储的文件数据的文件名,副本系数,以及副本在那个datanode上面存储的信息。 hdfs副本存放策略: 黄色表示请求的客户端所在的服务器 绿色表示副本存放的位置 通常第一个副本会与客户端存放在同一个服务器上 ...原创 2018-12-22 20:25:37 · 121 阅读 · 0 评论 -
大数据学习之spark5
实战外部数据源,包括操作 parquet数据 hive数据,mysql数据 三种数据 : package extenalSourcceApi import org.apache.spark.sql.SparkSession /** * 读取外部主数据源 parquet数据 hive数据,mysql数据 */ object parquetSource { def main(arg...原创 2019-01-13 18:04:06 · 228 阅读 · 0 评论