大数据管理技术
Jxufe渣渣斯
这个作者很懒,什么都没留下…
展开
-
大数据管理技术 软件常见端口汇总
参考链接:(1)大数据常见端口汇总-hadoop、hbase、hive、spark、kafka、zookeeper等http://blog.sina.com.cn/s/blog_17d3832620102yizh.html(2)Spark部分:几个重要的端口汇总https://blog.csdn.net/wyqwilliam/article/details/81612814...转载 2020-05-13 22:01:24 · 426 阅读 · 0 评论 -
大数据管理技术 scala类:case class
参考链接:scala case classhttps://www.jianshu.com/p/f24ef623646fcase classScala 支持 case classes 记法。Case Class 就是普通的类, 除了:默认不可变、可以通过模式匹配拆分、通过结构相等比较而非通过引用比较、易于实例化和操作。当一个类被定为case class 时,scala会默认做如下工作:(1)如果参数不加var/val修改,默认为val;(2)自动创建伴生对象并实现apply方法,这样创建对象时转载 2020-05-12 17:19:08 · 235 阅读 · 0 评论 -
大数据管理技术 Spark SQL DataFrame常见操作
参考链接:Spark-SQL之DataFrame操作大全https://www.cnblogs.com/honey01/p/8065232.htmlSpark SQL中的DataFrame类似于一张关系型数据表。在关系型数据库中对单表或进行的查询操作,在DataFrame中都可以通过调用其API接口来实现。可以参考,Scala提供的DataFrame API。DataFrame对象上Action操作一、show:展示数据以表格的形式在输出中展示jdbcDF中的数据,类似于select * fro转载 2020-05-12 17:15:05 · 533 阅读 · 0 评论 -
大数据管理技术 Spark创建DataFrame
参考链接:(1)Spark创建DataFrame的三种方法https://blog.csdn.net/martin_liang/article/details/79748503(2)Spark创建DataFrame的几种方式https://blog.csdn.net/shirukai/article/details/81085642与关系数据库的表(Table)一样,DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用SQL处理大数据的各种场景。原创 2020-05-12 16:25:15 · 335 阅读 · 0 评论 -
大数据管理技术 RDD及其转换操作/行动操作
参考链接:(1)什么是 RDD ?https://www.jianshu.com/p/6411fff954cf(2)spark的RDD中的action(执行)和transformation(转换)两种操作中常见函数介绍https://blog.csdn.net/helloxiaozhe/article/details/78481784(3)常见转换操作和行动操作https://blog...转载 2020-05-01 12:13:28 · 1495 阅读 · 0 评论 -
大数据管理技术 HBase Shell操作
参考链接:HBase Shell操作、HBase创建表、添加数据、查看表数据、操作列簇、删除表 05https://blog.csdn.net/weixin_42641909/article/details/89428976HBase Shell操作一、HBase Shell操作连接集群#在/usr/local/hbase目录下执行./bin/hbase shell二、创建表...转载 2020-04-28 15:32:33 · 202 阅读 · 0 评论 -
CentOS7+Hadoop2.7.3 Scala2.12.1安装
已有的环境配置:CentOS7+Hadoop2.7.3目标的环境配置:CentOS7+Hadoop2.7.3+Scala2.12.1安装过程参考链接:厦门大学数据库实验室Scala安装 http://dblab.xmu.edu.cn/blog/929-2/Step1:安装Java由于CentOS自带java JDK,因此直接检验JAVA_HOME以及java version即可。如果...原创 2020-04-01 14:14:39 · 260 阅读 · 0 评论 -
大数据 Ubuntu下R语言的使用
参考链接:R语言包在linux上的安装、卸载https://blog.csdn.net/cqboy1991/article/details/50538559有关install.packages()函数的详见:R包 package 的安装(install.packages函数详解)R的包(package)通常有两种:1 binary package:这种包属于即得即用型(ready-to-...转载 2020-03-31 16:21:39 · 490 阅读 · 0 评论 -
CentOS7+Hadoop2.7.1大数据网站用户购物行为分析R问题
友情链接:(1)大数据课程实验案例:网站用户行为分析(免费共享)http://dblab.xmu.edu.cn/post/7499/(2)大数据项目《网站用户行为分析》综合实验记录https://blog.csdn.net/solumin/article/details/89407780R安装或使用报错错误1:关于package’***’ is not available(for R ...原创 2020-03-31 16:02:34 · 888 阅读 · 0 评论 -
并行与分布式计算 Linux-MPI
参考链接:Linux下MPI环境的安装配置及MPI程序的编译运行https://blog.csdn.net/lusongno1/article/details/61709460(1)下载MPI安装包去这里下载一个适合的安装包。(2)安装包的解压安装包所在的目录下,运行tar xzvf mpich-x.x.x.tgz。(3)切换到解压出来的包目录下cd mpich-x.x.x(4)...转载 2020-03-17 09:18:50 · 604 阅读 · 0 评论 -
并行与分布式计算 线程案例1
案例一使用读写锁实现线程同步读写锁与互斥量类似,但读写锁允许更高的并行性。其特性为:写独占,读共享。读写锁特性:(1)读写锁是“写模式加锁”时,解锁前,所有对该锁加锁的线程都会被阻塞。(2)读写锁是“读模式加锁”时,如果线程以读模式对其加锁会成功。如果线程以写模式加锁会阻塞。(3)读写锁是“读模式加锁”时,如果有另外线程试图以写模式加锁,读写锁通常会阻塞随后的读模式锁请求,这样可以避免...转载 2020-03-17 09:05:39 · 464 阅读 · 0 评论 -
大数据管理技术 Hive数据类型
一、基本数据类型Hive类型说明Java类型实例TINYINT1byte有符号的整数byte20SMALLINT2byte有符号的整数short20INT4byte有符号的整数int20BIGINT8byte有符号的整数long20BOOLEAN布尔类型true或falsebooleantrueFLOAT单精度...转载 2020-03-16 22:24:41 · 424 阅读 · 0 评论 -
List/ArrayList 去重/计数
参考链接:(1)arraylist,去重,计数重复数据出现次数https://blog.csdn.net/hfaflanf/article/details/101701195(2)List去重并统计重复的数据https://blog.csdn.net/m0_38101105/article/details/84593649(1)arraylist,去重,计数重复数据出现次数:HashSet、...转载 2020-03-16 17:41:12 · 1526 阅读 · 0 评论 -
大数据管理技术 Hadoop-JavaAPI程序案例1
案例一在hadoop上进行编写mapreduce程序,统计关键词在text出现次数。mapreduce的处理过程分为2个阶段,map阶段,和reduce阶段。在要求统计指定文件中的所有单词的出现次数时,map阶段把每个关键词写到一行上以逗号进行分隔,并初始化数量为1(相同的单词hadoop中的map会自动放到一行中)reduce阶段是把每个单词出现的频率统计出来重新写回去。//MyMap...转载 2020-03-16 17:32:28 · 559 阅读 · 0 评论 -
并行与分布式计算 MPI之聚合通信
参考链接:(1)https://www.cnblogs.com/cuancuancuanhao/p/8438608.html(2)MPI之聚合通信-Scatter,Gather,Allgatherhttps://blog.csdn.net/sinat_22336563/article/details/70229243#MPI 集合通信函数MPI_Reduce()MPI_Allreduc...转载 2020-03-16 17:12:27 · 607 阅读 · 0 评论 -
大数据管理技术 HDFS常用shell命令
友情推荐:HDFS的Shell命令一、shell命令基本格式针对HDFS的shell格式hadoop fs -ls hdfs://namenode:host/parent/child,也可以省略“hdfs://namenode:host”,直接hadoop fs -ls /parent/child针对本地文件系统的shell格式,注:本地文件系统指的是客户端所在的系统。hadoop f...原创 2020-03-10 16:39:09 · 360 阅读 · 0 评论 -
大数据管理技术 Hadoop、HBase版本兼容性
来源:http://hbase.apache.org/book.html#supported.datatypes如Hadoop2.7.3,可以下载的HBase版本为HBase-1.3.x、HBase-1.4.x、HBase-2.1.x。转载 2020-03-10 00:07:21 · 447 阅读 · 0 评论 -
CentOS7&Eclipse Luna下安装Maven
鸣谢这位优秀青年所提供的CSDN博客CentOS6.6系统安装Maven以及Eclipse中配置Maven一、CentOS下安装MavenMaven的作用是管理。1、Maven安装包下载下载网址:http://maven.apache.org/2、将下载后的文件丢进CentOS7的共享文件夹中3、解压共享文件夹中的tar包tar -zxvf /mnt/hgfs/myCentO...原创 2020-03-09 20:01:28 · 335 阅读 · 0 评论 -
大数据管理技术
厦门大学数据库实验室http://dblab.xmu.edu.cn厦门大学数据库实验室博客http://dblab.xmu.edu.cn/post/56631)Hadoop安装教程_单机/伪分布式配置Hadoop2.6.0(2.7.1)/Ubuntu14.04(16.04)http://dblab.xmu.edu.cn/blog/install-hadoop/#创建Hadoop用户sud...转载 2020-03-02 23:56:17 · 1017 阅读 · 0 评论 -
Hadoop不收费版本
目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),对于国内而言,绝大多数选择CDH版本...转载 2018-08-19 09:35:47 · 3329 阅读 · 0 评论 -
Eclipse版本号及各个版本区别
附:Eclipse各个版本简介(http://zh.wikipedia.org/wiki/Eclipse)从2006年起,Eclipse基金会每年都会安排同步发布(simultaneous release)。同步发布主要在6月进行,并且会在接下来的9月及2月释放出SR1及SR2版本。二维图说明:表示同一版本的eclipse 不同类型包中预装了哪些插件,像Eclipse Kepler 版本 E...转载 2020-02-27 22:16:26 · 2325 阅读 · 0 评论 -
大数据管理技术 hadoop fs、hadoop dfs和hdfs dfs的区别
参考链接:(1)hadoop fs,hadoop dfs和hdfs dfs的区别https://blog.csdn.net/muyingmiao/article/details/99706803命令说明hadoop fsFS relates to a generic file system which can point to any file systems like...转载 2020-02-27 15:51:17 · 371 阅读 · 0 评论 -
CentOS7 修改系统支持中文编码
CentOS 7默认编码方式为UTF-8#查看系统现支持编码[hadoop@www ]#localeLANG=en_US.UTF-8 #或zh_CN.UTF-8LC_CTYPE="en_US.UTF-8"LC_NUMERIC="en_US.UTF-8"LC_TIME="en_US.UTF-8"LC_COLLATE="en_US.UTF-8"LC_MONETARY="en_US.UT...转载 2020-02-26 20:59:32 · 535 阅读 · 0 评论