大数据
文章平均质量分 88
Felix_zc
这个作者很懒,什么都没留下…
展开
-
使用spark来处理CSV文件数据
1、使用spark来处理CSV文件,写入mysql表当中spark介绍Spark是一个快速(基于内存),通用、可扩展的计算引擎,采用Scala语言编写。2009年诞生于UC Berkeley(加州大学伯克利分校,CAL的AMP实验室),2010年开源,2013年6月进入Apach孵化器,同年由美国伯克利大学 AMP 实验室的 Spark 大数据处理系统多位创始人联合创立Databricks(属于 Spark 的商业化公司-业界称之为数砖-数据展现-砌墙-侧面应正其不是基石,只是数据计算),2014年成为原创 2021-03-09 21:24:29 · 4260 阅读 · 0 评论 -
superset的基本介绍与安装
superset是由Airbnb(知名在线短租赁公司)开源的数据分析与可视化平台(曾用名Caravel、Panoramix),该工具主要特点是可自助分析、自定义仪表盘、分析结果可视化(导出)、用户/角色权限控制,还集成了一个SQL编辑器,可以进行SQL编辑查询对结果集进行保存可视化等。1、superset基本介绍我们已经了解到了superset是一款数据展示的工具,接下来 一起来了解一下superset的基本介绍。核心功能:1.快速创建数据可视化互动仪表盘2.丰富的可视化图表模板,灵活可扩展3.原创 2021-03-09 21:17:21 · 1067 阅读 · 0 评论 -
hive的基本介绍以及环境安装
1、hive的基本介绍Hive是基于Hadoop的一个数据仓库工具可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。实际工作当中,一般都是使用hive来进行大规模的数据分析,hive需要依赖于hadoop集群,所以使用hive之前需要先安装好hadoop集群Hive 具有 SQL 数据库的外表,但应用场景完全不同。Hive 只适合用来做海量离线数据统计分析2、hive的环境安装注意hive就是一个构建数据仓库的工具,集群中只需要在一台服务器上安装就可以了,不需要在多台服务器原创 2021-03-05 23:00:26 · 1130 阅读 · 0 评论 -
linux中的文件分发--scp与rsync
概述在linux当中,用于向远程服务器拷贝文件或者文件夹可以使用scp或者rsync,这两个命令功能类似都是向远程服务器进行拷贝,只不过scp是全量拷贝,rsync可以做到增量拷贝,rsync的效率比scp更高一些1. 通过scp直接拷贝scp 是 secure copy 的缩写, scp 是 linux 系统下基于 ssh 登陆进行安全的远程文件拷贝命令。scp 是加密的,rcp 是不加密的,scp 是 rcp 的加强版。可以通过scp进行不同服务器之间的文件或者文件夹的复制使用语法scp原创 2021-03-04 17:55:47 · 6647 阅读 · 1 评论 -
zookeeper入门
什么是zookeeper?官方文档上这么解释zookeeper,它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。上面的解释有点抽象,简单来说zookeeper=文件系统+监听通知机制。1、 文件系统Zookeeper维护一个类似文件系统的数据结构:每个子目录项如 NameService 都被称作为 znode(目录节点),和文件系统一样,我们能够自由的增转载 2021-03-03 17:12:47 · 135 阅读 · 1 评论