大数据
烟雨彷徨~~Xun
简单的实例带你从入门到放弃
展开
-
scala递归的方法快速解析Json数据
scala递归的方法快速解析Json数据思路:既然可以得到keyset() ,为什么不根据keyset去进行遍历,拿到所有的数据?主要难点在于我们不知道我们拿到的key去解析成一个对象还是去解析成一个字符串,我在这里用到了模式匹配,以下提供代码以供参考(Array类型的我没有处理,如果要处理根据业务去进行相应的处理):import java.utilimport com.alibaba.fastjson.{JSON, JSONObject}import org.apache.spark.rdd原创 2021-09-29 17:24:49 · 413 阅读 · 0 评论 -
spark streaming案例总结
spark streaming案例总结1、读取N分钟前文件def readFile(bachTime: Int, big_time: Int, frame: DataFrame, template_path: String, spark: SparkSession) = { val nowMinute: String = getNowTime()._3 val yu_time = nowMinute.toInt % bachTime var file_df: Data原创 2021-09-14 10:44:10 · 343 阅读 · 0 评论 -
spark streaming 读取kafka数据
spark streaming 读取kafka数据1、程序入口 val spark = SparkSession.builder().appName(this.getClass.getName).master("local[*]").getOrCreate() import spark.implicits._ val sc = spark.sparkContext val ssc = new StreamingContext(spark.sparkContext, Minutes原创 2021-09-14 10:17:41 · 954 阅读 · 0 评论 -
git常用命令
git命令git pull 拉取更新 (第一步)git add 文件路径名称(第二步)git commit -m ‘提交文件注释说明’(第三步)git push 上传远程代码并合并(第四步)(02与03机器上再 spark下ak下:git pull (第五步)uk 流)备注 : 第五步忽略,自用...原创 2021-09-03 16:06:54 · 106 阅读 · 0 评论 -
hive上的小文件使用spark进行合并
hive上的小文件使用spark进行合并引言:我们的一些实时处理的文件再不同批次下生成的文件大小不一致,有时会产生大量的小文件,对于我们后期的数据处理影响极大,因此需要将小文件合并再save成大小均为128M的文件更为合适。原理:首先读取该目录下的文件大小 val fs = FileSystem.get(sc.hadoopConfiguration) val dirSize = fs.getContentSummary(new Path(lastInputPath)).getLength原创 2021-07-22 19:18:01 · 739 阅读 · 0 评论 -
Kafka-分布式消息队列
结构图:一、组件1)Producer :消息生产者,就是向kafka broker发消息的客户端;2)Consumer :消息消费者,从kafka broker取消息的客户端;3)Topic :可以理解为一个队列(就是同一个业务的数据放在一个topic下);4)Consumer Group (CG):这是kafka用来实现一个topic消息的广播(发给所有的consumer)和单播(发给任意一个consumer)的手段。一个topic可以有多个CG。topic的消息会复制(不是真的复制,是概念上原创 2021-04-06 20:21:35 · 294 阅读 · 0 评论 -
hbase常用命令
1、建表create 'studut','info'student为表名,info为列族2、插入数据put 'student','1001','info:name','zhangsan'用put关键字,在student表info列族插入key为1001的行,列为name的value 为’zhangsan’要指定表、列族、行、列3、查看数据①、查看一行get 'student','1001'②、查看具体的某一个值get 'student','1001','info:name'③原创 2020-12-28 16:59:22 · 212 阅读 · 0 评论 -
hive常用函数
一、类型(1)UDF(User-Defined-Function)一进一出 select upper(“DD”) from emp;(2)UDAF(User-Defined Aggregation Function)聚集函数,多进一出类似于:count/max/min(3)UDTF(User-Defined Table-Generating Functions)一进多出二、常用函数(1)查看1.查看系统自带的函数hive> show functions;2.显示自带的函数的原创 2020-12-24 13:29:35 · 221 阅读 · 0 评论 -
hive--数据仓库常用命令
hive–数据仓库常用命令一、Hive实际操作(1)启动hivebin/hive(2)显示数据库hive> show databases;(3)使用default数据库hive> use default;(4)显示default数据库中的表hive> show tables;(5)删除已创建的student表hive> drop table student;(6)创建student表, 并声明文件分隔符’\t’hive> create tab原创 2020-12-23 22:27:41 · 901 阅读 · 0 评论 -
linux的常用命令(超详细、超全)
一、配置主机名1、查看主机名字:hostname2、改主机名字:vi /etc/sysconfig/networkNETWORKING=yesNETWORKING_IPV6=noHOSTNAME= name(根据自己实际情况改)保存退出并重启设备,重启后,查看主机名,已经修改成功二、修改映射vim /etc/hosts格式:ip 主机名如 192.168.1.10 linux001保存退出可以直接 ping linux001三、防火墙**①、**service iptab原创 2020-12-11 22:14:41 · 567 阅读 · 1 评论 -
linux 根目录下各个文件的作用
**linux 根目录下各个文件的作用**Linux每个目录都有自己约定俗成的用处,或者说Linux的不同文件分门别类地放到了专门的文件夹,虽然Linux没有强制性的要求我们必须按照这些规定放置文件,但是为了方便起见,还是遵守约定的好。1、/bin:是Binary的缩写,这个目录存放着系统必备执行命令,比如ls、cat2、/boot:这里存放的是启动Linux时使用的一些核心文件,包括一些连接文件以及镜像文件,自己的安装别放这里。3、/dev:Device(设备)的缩写,该目录下存放的是Linu原创 2020-12-11 21:27:12 · 326 阅读 · 0 评论