![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
Tuple_Margin
这个作者很懒,什么都没留下…
展开
-
Hbase最全命令汇总!
显示集群下所有的表: list创建表 create ‘tablename’,‘cloumnfamily’表中添加数据 put ‘tablename’,‘rowkey’,‘cloumnfamily:cell’,‘value’查询表中数据 get ‘tablename’,‘rowkey’,‘cloumnfamily:cell’根据列簇查询: get ‘tablename’,‘rowkey’根据列名查询: scan ‘scores’,{COLUMNS=>‘clo..原创 2021-09-08 16:36:56 · 316 阅读 · 0 评论 -
最全linux常用命令
1、cdcd:切换目录如:cd /user/bin说明:在系统中,通常“.”表示本级目录,“…”表示上级目录;2、pwdpwd:显示当前目录3、lsls:列出目录中的所有文件;-a:显示包括隐含文件在内的所有文件和目录;-l:以长列表形式显示当前路径下的文件;*.v:列出所有后缀为“v”的文件;-al:以长列表形式列出目录下所有的文件,包括隐藏文件;4、mkdirmkdir:创建新目录;格式:mkdir [-m 模式] -p 目录-m:按指定模式建立目录;-p:建立目录时建立原创 2021-03-29 11:32:27 · 170 阅读 · 2 评论 -
用spark操作hive实现动态传参,出现org.apache.spark.sql.hive.HiveSessionState错误解决方式
通过java代码,使用spark操作hive步骤(错误解决方式在文末):1、由于hive是依赖于hadoop的,所以需要启动hadoop,切换到hadoop的sbin目录下,输入以下指令所有:./start-all.sh2、由于spark操作hive时,实际上只是用了hive中的元数据,所以不需要启动hive在,只需要在根目录下输入以下指令:hive --service metastore3、由于是在本地通过java操作hive,所以两者之间需要建立连接,可以将hive中的hive-site.原创 2021-01-29 17:04:47 · 923 阅读 · 0 评论 -
通过Java代码实现Spark中RDD与Dateset(DataFrame)之间互相转换
1、导入maven依赖 <properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <java.version>1.8</java.version> <spark.version>2.1.原创 2021-01-29 09:15:30 · 760 阅读 · 0 评论 -
通过java代码实现SparkSql操作数据库
1、导入相关依赖<properties> <java.version>1.8</java.version> <spark.version>2.1.0</spark.version> <scala.version>2.11</scala.version> </properties> <dependencies> <depende原创 2021-01-28 15:06:07 · 937 阅读 · 0 评论 -
使用Linux的shell命令实现SparkSql操作数据库
1、在linux环境下,切换到spark下的sbin目录中,输入./start-all.sh启动spark集群。同时,切换到spark的bin目录下,通过./spark-shell切换到scala下。2、输入以下指令,导入SparkSession对象import org.apache.spark.sql.SparkSession3、输入以下指令,使支持rdds转换为dataframes及后续的sql操作import spark.implicits._4、创建sparksession原创 2021-01-28 14:42:39 · 1866 阅读 · 0 评论 -
Linux使用shell命令实时写入数据,通过sparkstreaming实时计算
1、linux写入指令:nc -lk 9999nc代表当前节点的Ip名字,后面的9999是自己定义的端口号2、在java中,创建maven项目,导入maven依赖:<properties> <java.version>1.8</java.version> <spark.version>2.1.0</spark.version> <scala.version>2.11</sc原创 2021-01-28 10:36:04 · 427 阅读 · 0 评论 -
spark用shell命令将文档中单词出现次数按降序排列,并写入到hdfs中
1、启动spark(进入spark的bin目录下,输入:./spark-shell命令)2、声明一个变量,通过val first=sc.textFile("file:///home/yaozhen/movie.txt");指令从该文档中获取数据,file指的是当前节点的路径下的文档;(生成Rdd)3、查询文档中内容的行数,first.count;(注意:文档结束后不要换行,否则会多算一行;另外,在上面写文档路径的时候,file后面需要加“///”,否则该方法无法调用);4、通过val third=f原创 2021-01-25 18:18:09 · 716 阅读 · 12 评论 -
elasticsearch的status一直是red的解决方案
1、使用curl -XGET 'http://192.168.88.2:9200/_cluster/health?pretty'查看索引的状态发现:{ "cluster_name" : "my-application", "status" : "red", "timed_out" : false, "number_of_nodes" : 1, "number_of_data_nodes" : 0, "active_primary_shards" : 0, "active_sha原创 2021-01-14 14:29:25 · 3327 阅读 · 2 评论 -
在Ubuntu中如何部署Hive?
1、在Linux系统中安装Hive2、配置环境变量将hadoop下面的core-site.xml和hdfs-site.xml文件复制到hive的conf文件夹下3、修改hive-site.xml<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://node1/hive</value></property><prope原创 2021-01-11 18:12:51 · 177 阅读 · 0 评论 -
Ubuntu安装mysql数据库
一. 安装mysql步骤:(1). 首先用sudo apt-get update 更新系统 。(2). 命令行中输入 sudo apt-get install mysql-server mysql-client .(3). 启动mysql服务:sudo service mysql restart 。(4). 通过 sudo mysql -u root -p登陆mysql (默认密码为空。)(5). 通过输入 : 输入以下设置密码update mysql.user setauthentic原创 2021-01-11 18:02:02 · 127 阅读 · 0 评论 -
hadoop集群搭建
Hadoop 安装与配置一. 文档说明hadoop 这套软件通常都在多台linux主机上运行,但目前条件不允许,所以使用虚拟机模拟多个计算机,在这些模拟出来的计算机装操作系统,之后在操作系统上部署hadoop环境来进行实验。1.目标:用虚拟机基本配置一个拥有三个节点的hadoop实验环境。2.环境:物理机配置:硬件设备:笔记本运行存储:8G(内存条)磁盘存储:128G硬盘(注释1)操作系统: Ubuntu 14.7 X64(注释2)软件和文件虚拟机软件:VMware 15 (注3)原创 2021-01-11 17:48:41 · 129 阅读 · 0 评论 -
kafka集群搭建步骤
先启动zookeeper:再启动kafka.kafka修改的配置文件:(1).修改 zookeeper.properties 配置文件 :dataDir=/tmp/zookeeper 指定zookeeper临时文件存放路径。clientPort=2181 客户端访问的端口号。(2). 修改server.properties文件:配置集群内每个主机的编号不要一样,只要是数字就行。broker.id=1集群对外服务的主机ip和端口(注意kafka需要每台机器上都要启动,故在不同的节点.原创 2021-01-11 17:44:08 · 153 阅读 · 0 评论