大数据
Nick_Spider
GitHub -> https://github.com/nickliqian
展开
-
基于pyspark GraphFrames实现图查询和计算
基于pyspark GraphFrames实现图查询和计算GraphFrames基本操作创建图展示顶点和边的数据统计顶点的入度和出度对顶点和边的数据进行分析搜索指定结构路径对搜索结果过滤多路径条件搜索匿名顶点和边设置路径不存在的条件有状态和无状态查询无状态查询有状态查询子图例一例二参考GraphFrames基本操作GraphFrames,该类库是构建在Spark DataFrames之上,它既...原创 2020-03-17 15:58:22 · 4377 阅读 · 0 评论 -
基于pyspark创建DataFrame的几种方法
基于pyspark创建DataFrame的几种方法pyspark创建DataFrameRDD和DataFrame使用二元组创建DataFrame使用键值对创建DataFrame使用rdd创建DataFrame基于rdd和ROW创建DataFrame基于rdd和StructType创建DataFrame基于pandas DataFrame创建pyspark DataFrame创建有序的DataFra...原创 2020-03-17 12:59:49 · 16382 阅读 · 0 评论 -
使用pyspark SQL处理MySQL中的数据
目录pyspark创建DataFrameRDD和DataFrame使用二元组创建DataFramepyspark连接mysqlpyspark SQL常用语法输出schema预览表统计数量输出列名称和字段类型选择列为选择的列赋予新名称按条件过滤构造新列增加行删除重复记录删除列删除缺失值行填充缺失值分组统计和计算函数计算描述性分析参考链接pyspark创建DataFrame为了便于操作,使用pys...原创 2020-03-17 10:48:25 · 1463 阅读 · 0 评论 -
使用python跑spark:windowns使用PySpark环境配置和基本操作
下载依赖首先需要下载hadoop和spark,解压,然后设置环境变量。HADOOP_HOME => /path/hadoopSPARK_HOME => /path/spark安装pyspark。pip install pyspark基本使用可以在shell终端,输入pyspark,有如下回显:输入以下指令进行测试,并创建SparkContext,SparkCont...原创 2020-03-11 18:00:06 · 1240 阅读 · 0 评论 -
使用python&pandas读取hive数据
0 引子最近需要在python服务端实现读取hive数据的功能,本以为会比较容易实现,结果因为需要同时支持在Linux(部署)和windowns(开发)上运行,稍微费了一番功夫查询和尝试。1 支持hive的第三方包在网上稍微搜索了一下,支持python连接到hive的第三方包有pyhive、pshs2、impala。GitHub参考链接pyhive => https://gith...原创 2019-12-11 23:12:31 · 8342 阅读 · 0 评论 -
(转载)一文搞定数据仓库之拉链表,流水表,全量表,增量表
转载自:https://blog.csdn.net/mtj66/article/details/780193701. 全量表:每天的所有的最新状态的数据,2. 增量表:每天的新增数据,增量数据是上次导出之后的新数据。3. 拉链表:维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录而已,通过拉链表可以很方便的还原出拉链...转载 2018-09-25 09:39:20 · 1398 阅读 · 0 评论 -
基于docker swarm搭建ELK集群
阿里云docker安装教程以及镜像下载加速1 Swarm介绍Swarm是Docker官方提供的一款集群管理工具,其主要作用是把若干台Docker主机抽象为一个整体,并且通过一个入口统一管理这些Docker主机上的各种Docker资源。Swarm和Kubernetes比较类似,但是更加轻,具有的功能也较kubernetes更少一些。总而言之使用swarm搭建集群是非常方便的,先看一下doc...原创 2018-12-16 13:19:53 · 4033 阅读 · 1 评论