大数据
WeixinX_
这个作者很懒,什么都没留下…
展开
-
大数据学习-Spark算子(三)之RDD的其他操作
Spark算子(三)之RDD的其他操作大数据学习-Spark算子(一)之基本RDD操作大数据学习-Spark算子(二)之Pair RDD操作文章目录Spark算子(三)之RDD的其他操作5、RDD的其他操作1)`glom()`:2)`getNumPartitions()`:3)`coalesce(numPartitions,shuffle=False)`:4)`repartition(numPartitions)`:5)`cache()`:6)`persist()`:7)`pipe(command,[原创 2020-09-10 20:51:26 · 283 阅读 · 0 评论 -
大数据学习-Spark算子(二)之Pair RDD操作
Spark算子(二)之Pair RDD操作Spark算子(一)之基本RDD操作文章目录Spark算子(二)之Pair RDD操作3、Pair RDD的转化操作1)`reduceByKey(func)`:2)`groupBy(func)`:3)`groupByKey()`:4)`combineByKey(a1,a2,a3,a4,a5)`:5)`mapValues(func)`:6)`flatMapValues(func)`:7)`keys()`:8)`values()`:9)`sortBy(func,as原创 2020-09-10 20:46:29 · 208 阅读 · 0 评论 -
大数据学习-Spark算子(一)之基本RDD操作
Spark算子(一)之基本RDD操作参考书籍《大数据技术与应用》肖政宏 李俊杰 谢志明 编著Spark算子大致分为转化(Transformation)和行动(Action)两类。1)Transformation:不触发提交作业,完成作业中间过程处理。函数包括:map、filter、flatMap、groupByKey、aggregateByKey、pipe和coalesce等。2)Action:会触发SparkContext提交作业(job)。函数包括:reduce、collect、count、原创 2020-09-10 20:42:52 · 215 阅读 · 0 评论 -
大数据学习-Spark环境配置&官方示例SparkPi
Spark环境配置文章目录Spark环境配置1、压缩包下载2、解压安装3、修改配置文件1)添加环境变量2)配置spark-env.sh文件3)配置slaves文件4、启动spark集群1)启动hadoop2)启动spark3)查看进程4)查看spark集群运行信息1、压缩包下载scala下载地址:https://www.scala-lang.org/download/所选择版本为 scala-2.13.3.tgzspark下载地址:http://spark.apache.org/downloads原创 2020-09-09 17:25:52 · 2375 阅读 · 0 评论 -
大数据学习-HBase Shell命令
HBash Shell命令文章目录HBash Shell命令一、DDL操作1、list:查看HBase中的所有表2、create:创建表3、describe:查看表的详细信息4、alter:修改表的列族信息5、disable:禁用表6、enable:启用表7、drop:删除一张表8、exists:查看表是否存在二、DML操作1、put:添加数据2、scan:查询整张表或者列族的数据3、get:获取行或者单元的值4、delete:删除数据5、truncate:删除表中所有数据进入HBash Shell:原创 2020-09-08 17:08:27 · 341 阅读 · 0 评论 -
大数据学习-HBase环境配置
HBase环境配置文章目录HBase环境配置0、前置1、压缩包下载2、HBase解压安装3、设置环境变量4、HBase文件配置5、启动并查看0、前置需要根据笔者之前的两篇博客完成:大数据学习-CentOS7安装大数据学习-大数据环境配置1、压缩包下载地址:https://mirrors.bfsu.edu.cn/apache/hbase/hbase-1.3.6/这里我们选择的版本是hbase-1.3.6-bin.tar.gz将下载好的压缩包上传到 /bigdata/soft 下2、HBas原创 2020-09-08 13:15:51 · 8385 阅读 · 0 评论 -
大数据学习-MapReduce WordCount编程实例
MapReduce WordCount编程实例文章目录MapReduce WordCount编程实例一、MapReduce 原理简述1、Map阶段2、Reduce阶段二、WordCount实例代码实现1、编写代码2、打包运行一、MapReduce 原理简述MapReduce架构图 和HDFS一样,MapReduce也是采用Master/Slave的架构它主要由Client、JobTracker、TaskTracker以及Task4个部分组成采用“分而治之”的策略共分为两个阶段map(映原创 2020-09-06 20:52:28 · 661 阅读 · 0 评论 -
大数据学习-大数据环境配置
hadoop环境配置前置:配置三台CentOS7的机器组成简单的集群工具:VMware 11 、Xshell、Xftp压缩包:hadoop-2.6.0-cdh5.14.2.tar.gz jdk-8u141-linux-x64.tar.gz zookeeper-3.4.5-cdh5.14.2.tar.gz文章目录hadoop环境配置一、前置配置1、IP配置2、关闭防火墙3、关闭selinux4、更改主机名5、连接Xshell6、更改主机名与IP地址映射7、同步时间8、定义同一目录二原创 2020-09-05 20:22:05 · 896 阅读 · 2 评论 -
大数据学习-CentOS7安装
CentOS7安装出自:温春水老师的大数据训练课程目标:配置三台机器组成简单的分布式集群系统1、准备 1、VMware 2、镜像文件CentOS-7-x86_64-DVD-1810.iso2、安装第一台虚拟机 1:双击Vmware打开之后,点击创建新的虚拟机 2:选择自定义安装配置 3:选择稍后安装操作系统 4:选择稍后安装操作系统 5:选择安装路径,尽量不要放在C盘 6:CPU核数,默认即可 7:虚拟机内存根据自身windows电脑进行调整 例原创 2020-09-05 19:01:51 · 374 阅读 · 0 评论