大数据
文章平均质量分 72
T1.Faker
此人很懒,什么都没有写
展开
-
Mac终端命令和连接服务器
Mac终端连接服务器远程登录1.下载SSH客户端工具这里推荐的SSH客户端是Royal TSSSH工具官网网站下载免费版下载安装即可2.安装终端插件点击click here3.创建Document,配置服务器连接在下图红框下根目录创建一个Document,免费版只能创建一个创建后,选中Document,右键创建Terminal配置服务器地址和端口号Mac终端常用命令1.文件基本属性ll 或者 ls –l :命令显示一个文件的属性以及文件所属的用户和组[root原创 2021-06-16 14:50:28 · 1197 阅读 · 0 评论 -
spark与pyspark教程(一)
大数据架构基础知识HDFS,yarn,mapreduce,spark,hivespark1.简介spark是一种计算引擎,类似于hadoop架构下mapreduce,与mapreduce不同的是将计算的结果存入hdfs分布式文件系统。spark则是写入内存中,像mysql一样可以实现实时的计算,包括SQL查询。spark不单单支持传统批量处理应用,更支持交互式查询、流式计算、机器学习、图计算等各种应用,spark是由scala语言开发,具备python的接口,pyspark。2.spark组件原创 2021-06-10 16:43:36 · 1346 阅读 · 0 评论 -
数据仓库设计模型
数据仓库介绍数据中台以其较大的价值带宽,可以快速精准的让数据直接赋能企业众多的业务,并为数据提供一个统一化的管理,打破数据孤岛,追溯数据血缘,实现自助化及数据高复用度的效果。数据仓库作为数据中台的重要组成,为了让其更好的服务于数据中台,高效的实现数据价值,特提出数据仓库结构设计模型及开发规范。数仓建设的核心思想:从设计、开发、部署和使用层面,避免重复建设和指标冗余建设,从而保障数据口径的规范和统一,最终实现数据资产全链路关联、提供标准数据输出以及建立统一的数据公共层。因此数仓建设应主要关注数仓结构模型原创 2021-06-10 09:12:53 · 472 阅读 · 0 评论 -
python yaml操作
1 yaml介绍yaml被定义为一种可以超越XML,json的配置文件,yaml在python库中被解析为pyyaml。简单说,yaml库可以将对应的yaml文件解析为简单的表达清单,散列表,字典等数据形态。yaml的配置文件后缀为.yml。如runoff.yml2 yaml语法与数据类型语法大小写敏感运用缩进表示数据之间的层次关系缩进只能使用空格键缩进,且不要求空格格数,只要能清晰表示出数据之间的关系#表示注释数据类型对象:键值对集合,类似于字典(key: value)冒号后加原创 2021-06-09 10:23:44 · 333 阅读 · 2 评论