Hadoop_And_Spark
冰河映寒星
知乎:冰河映寒星
分享自己的机器学习笔记,包括知识点面经、NLP、推荐系统等等,新手的学习笔记,督促自己巩固与学习。
展开
-
Spark学习笔记:一、Spark简介
1、Spark简介Spark最初由美国加州伯克利大学(UCBerkeley)的AMP(Algorithms, Machines and People)实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Spark作为大数据计算平台的后起之秀,在2014年打破了Hadoop保持的基准排序(Sort Benchmark)纪录,使用206个节点...原创 2020-06-16 08:54:56 · 491 阅读 · 0 评论 -
Spark学习笔记:五、Spark编程基础
一、RDD创建RDD可以通过两种方式创建: 1、读取一个外部数据集。比如,从本地文件加载数据集,或者从HDFS文件系统、HBase、Cassandra、Amazon S3等外部数据源中加载数据集。Spark可以支持文本文件、SequenceFile文件(Hadoop提供的 SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件)和其他符合Hadoop I...原创 2020-06-16 08:56:00 · 399 阅读 · 0 评论 -
Spark学习笔记:三、RDD原理
一、RDD原理:一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可以分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同的节点上,从而可以在集群中的不同节点上进行并行计算。RDD提供了一组丰富的操作以支持常见的数据运算,分为“行动”(Action)和“转换”(Transformation)两种类型,前者用于执行计算并指定输出的...原创 2020-06-16 08:55:33 · 1054 阅读 · 0 评论 -
Hadoop fs 常用命令
常用命令:hadoop fs -ls hdfs_path //查看HDFS目录下的文件和子目录hadoop fs -mkdir hdfs_path //在HDFS上创建文件夹hadoop fs -rm hdfs_path //删除HDFS上的文件hadoop fs -rmr hdfs_path //删除HDFS上的文件夹hadoop fs -put local_file hdf...原创 2018-08-15 13:49:09 · 4143 阅读 · 0 评论 -
Hive SQL(HQL)常用语法学习整理
更行中create database if not exists hive;create table if not exists hive.usr( name string comment 'username', pwd string comment 'password', address struct<street:string,city:原创 2018-08-14 15:57:17 · 1328 阅读 · 0 评论 -
Spark学习笔记:二、Spark运行架构
一、基本概念RDD:是弹性分布式数据集(Resilient Distributed Dataset)的简称,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型; DAG:是Directed Acyclic Graph(有向无环图)的简称,反映RDD之间的依赖关系; Executor:是运行在工作节点(Worker Node)上的一个进程,负责运行任务,并为应用程序存储数据; 应...原创 2020-06-16 08:55:09 · 316 阅读 · 0 评论 -
Spark学习笔记:四、WordCount字频统计入门程序(基于IntelliJ IDEA使用Scala+SBT)
一、环境准备:Ubuntu16.04 IDEA Ultimate(破解版、教育版) Java JDK 1.8 Hadoop2.7 (伪单机模式) Spark 2.1.0Hadoop与Spark的安装过程本文省略二、IDEA + SBTIDEA安装Scala插件(自带sbt),新建scala sbt项目 配置项目中的build.sbtname := "SBTTest...原创 2020-06-16 08:55:46 · 563 阅读 · 0 评论