![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 56
W.J.Z
这个作者很懒,什么都没留下…
展开
-
HBase安装及伪分布式配置教程
HBase安装是在我的另一篇博客hadoop在centos系统未分布式安装的基础上进行的,HBase下载地址:HBase,不建议选择最新版本的,容易出现兼容性问题。HBase安装步骤解压到/usr/local 路径下sudo tar -zxf ~/下载/hbase-1.1.12-bin.tar.gz -C /usr/local2.更改文件夹名sudo mv /usr/local...原创 2018-10-18 16:26:36 · 790 阅读 · 0 评论 -
python速成1
快速掌握python的使用,总结文档使用latex编写后转为图片,方便下载打印。后续将继续完善。原创 2019-02-25 17:53:00 · 2004 阅读 · 0 评论 -
Spark分布式集群环境搭建
前提Spark分布式集群的安装环境,需要事先配置好Hadoop的分布式集群环境,hadoop分布式集群环境搭建请看hadoop分布式集群环境配置https://blog.csdn.net/Leader_wang/article/details/84449235安装spark第一步:下载spark:http://spark.apache.org/downloads.html下载完成后,运行以...原创 2018-11-25 14:26:41 · 2978 阅读 · 1 评论 -
hadoop分布式集群环境搭建
spark环境集群搭建硬件准备集群最低需要两台主机,一台作为master,一台作为worker,但由于方面限制,有时只有一台主机,这时我们可以创建一台虚拟机模拟集群环境,现在以centos系统作为演示:第一步:临时关闭SELinux第二步:使用系统自带box安装系统,安装过程省略。进入系统会乱码,重起系统可恢复,暂不支持中文显示。第三步:设置桥接模式,使主机和虚拟机能相互ping通...原创 2018-11-24 20:19:03 · 3028 阅读 · 0 评论 -
淘宝双11数据分析与预测课程案例:实验环境搭配
1 软件安装清单安装Hadoop安装MySQL安装Hive安装Sqoop安装Eclipse安装ECharts 2 hadoop安装hadoop在centos的伪分布式安装3 MySql安装原创 2018-11-08 19:44:08 · 4475 阅读 · 9 评论 -
Scala数据结构
数组val arr = new Array[int](2)arr(0) = 1arr(1) =2#上面的代码等价于val arr = Array(1,2)列表val intList = List(1,2,3)#列表由头部和尾部之分,上面的头部为1,尾部为List(2,3);因此可以将元素插入到头部;0::intList #此刻的intList列表为List(0,1...原创 2018-11-05 18:11:56 · 1339 阅读 · 0 评论 -
Scala基础
val和varval变量在声明时必须进行初始化,初始化后不能进行再赋值;var声明时进行赋值,初始化后还可以在进行赋值;基本数据类型和操作Scala的数据类型包括:Byte、Char、Short、Int、Long、Float、Double和Boolean。加(+)、减(-) 、乘(*) 、除(/) 、余数(%)和关系和逻辑操作操作符。RangeRange用于代替for循环1 t...原创 2018-11-05 10:58:04 · 1248 阅读 · 0 评论 -
linux系统下scala的安装
第一步下载scala:下载地址;在使用scala之前需要安装java JDK,相关内容请查阅资料,scala的真实下载地址请向下翻网页,如图所示:配置系统环境下载完成后,解压到相应目录,赋予权限和配置系统环境找到文件下载目录,在该目录下打开shellsudo tar -zxf scala-2.11.12.tgz -C /usr/local #将文件解压到/usr/loca目录下...原创 2018-11-05 10:22:45 · 1588 阅读 · 0 评论 -
centos安装sbt
前言厦门大学数据库实验室讲授安装sbt的教程已经过去很长时间了,那个教程已经不适用于现在的安装方式,下面一步步讲解现在的安装方式:第一步:下载sbt下载地址:sbt;不建议选择最新的版本,因为会有兼容性的问题。下载后请将文件解压到/usr/local/文件夹下。第二步:测试是否设置成功补充:构建定义:基本的构建设置都放在项目根目录的 build.sbt 文件里。 例...原创 2018-11-05 09:37:32 · 1811 阅读 · 0 评论 -
RDD编程
1 RDD创建RDD创建有两种形式,1:从外部读取数据源,外部可指本地系统、HDFS系统等;2:调用SparkContext的parallelize方法,在Driver中一个已经存在的集合(数组)上创建。1.1 演示前提启动hadoop和spark-shell>>start-dfs.sh //启动hadoop>>sprak-shell //启动spark&...原创 2018-11-06 21:20:55 · 1804 阅读 · 0 评论 -
spark运行构架
Spark运行框架由集群资源管理器(Cluster Manager)、每个任务的任务控制节点(Driver)、运行作业任务的工作节点(Worker Node)、每个工作节点上负责具体任务的执行进程(Executor)。Spark所采用的Executor有两个优点:一是利用多线程来执行具体的任务(Hadoop MapReduce采用的是进程模型),减少任务的启动开销;二是Executor中有一个...原创 2018-11-06 13:13:55 · 1296 阅读 · 0 评论 -
分布式数据库HBase必备理论知识
HBase简介 HBase是针对谷歌Bigtable的开源实现,是一个高可靠、高性能、面向列、可伸缩i的分布式数据库,主要用于存储非结构化和半结构化的松散数据。项目BigtableHBase文件存储系统GFSHDFS海量数据处理MapReduceHadoop MapReduce协同服务管理ChubbyZookeeperHBase与传统数...原创 2018-10-17 20:49:50 · 343 阅读 · 0 评论 -
常用HDFS操作
概述原创 2018-10-12 20:54:37 · 1156 阅读 · 0 评论 -
HBase编程实战
编程实现以下指定功能,并用Hadoop提供的HBase Shell命令完成相同任务:(1) 列出HBase所有的表的相关信息,例如表名;(2) 在终端打印出指定的表的所有记录数据;(3) 向已经创建好的表添加和删除指定的列族或列;(4) 清空指定的表的所有记录数据;(5) 统计表的行数。现有以下关系型数据库中的表和数据,要求将其转换为适合于HBase存储的表并插入数据:学...原创 2018-10-19 16:38:20 · 2283 阅读 · 1 评论 -
HBase常用shell命令和实践
create 创建表 1. 指定表名、列族、列族版本号 hbase >> create ‘t1’ , { NAME => ‘f1’ , VERSIONS => 5} 2. 创建表t1,3个列族分别为f1、f2、原创 2018-10-18 17:10:55 · 837 阅读 · 0 评论 -
YARN配置
原创 2019-04-18 10:54:54 · 284 阅读 · 0 评论