- 博客(13)
- 资源 (95)
- 收藏
- 关注
原创 hadoop组件---spark实战-----airflow----调度工具airflow部署到k8s中使用
在之前的文章中 我们已经了解了airflow 和 它的工作原理。hadoop组件—spark实战-----airflow----调度工具airflow的介绍和使用示例Scheduler进程,WebServer进程和Worker进程需要单独启动。Scheduler和WebServer可以跑在一个操作系统内,也可以分开,而通常Worker需要很多,如果是部署特定的数量的Worker,那就需要特定数...
2020-02-27 23:20:07 9412
原创 hadoop组件---spark实战-----airflow----调度工具airflow的介绍和使用示例
Airflow是什么Airflow是一个可编程,调度和监控的工作流平台,基于有向无环图(DAG),airflow可以定义一组有依赖的任务,按照依赖依次执行。airflow提供了丰富的命令行工具用于系统管控,而其web管理界面同样也可以方便的管控调度任务,并且对任务运行状态进行实时监控,方便了系统的运维和管理,可视化方面和易用性都是很好的。2019年airflow 已经成长为apache的顶级项...
2020-02-27 15:18:33 7174 2
原创 k8s---使用ingress配置域名转发时的traefik路径规则详解
ingress中traefik的使用方式如下:apiVersion: extensions/v1beta1kind: Ingressmetadata: name: spark-client-test namespace: default annotations: kubernetes.io/ingress.class: traefik traefik.fronte...
2020-02-25 19:42:02 15272
原创 hadoop组件---spark实战----spark on k8s模式k8s原生方式spark2.4.4 通过web UI界面查看任务运行情况
一般我们在运行spark任务时,需要查看他的运行情况。比较常用的方式就是在spark的UI界面上查看。一般的spark 因为driver所在的node是固定的,ip也就是固定的,所以能够通过ip或者域名映射后即可很方便的进行访问。spark on k8s比较特别的是 driver是一个在k8s集群中临时启动的pod,它一般没有外部ip,只有k8s的内部ip,同时这个内部ip 每次driver...
2020-02-25 19:38:48 2124
原创 数据挖掘(七) -----在python程序中使用hail
我们在之前的文章中已经尝试安装了hail和简单的使用数据挖掘(五) -----基于Spark的可伸缩基因数据分析平台开源存储运算架构hail全面了解和安装但是 我们发现 这种hail的运行方式 是需要进入到conda的hail的虚拟环境中才能运行的。我们业务一般来说 都是在外层执行,还有其他的业务逻辑,所以最好还是在python的py程序中就能调用hail,而不是进入到conda的虚拟环境中...
2020-02-22 13:19:52 1995
原创 数据挖掘(五) -----基于Spark的可伸缩基因数据分析平台开源存储运算架构hail全面了解和安装
hail简介hail是一个开源的、通用的、面向python数据类型的处理基因数据专用的分析库和方法解决方案。hail的存在是 为了 支持 多维度的复杂的数据结构,比如 全基因组关联数据研究(GWAS).GWAS Tutorialhail的底层是通过python,scala,java和apache spark来实现的。hail官网官方文档hail的官方论坛维护hail的团队是 Nea...
2020-02-21 18:32:29 1955
原创 hadoop组件---spark实战----spark on k8s模式k8s原生方式spark2.4.4在python程序中通过conf创建sparkSession
我们在之前的文章中已经尝试了使用spark on k8s。hadoop组件—spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode提交python程序和运行pyspark不过 使用的方式 是spark-submit 或者 pyspark 来启动 spark on k8s。但是 一般 我们进行业务编程,都会 有其他的处理逻辑, 然后在 ...
2020-02-20 21:12:49 1116
转载 数据挖掘----基础--conda安装---miniconda
conda简介Conda 是一个开源的软件包管理系统和环境管理系统,用于安装多个版本的软件包及其依赖关系,并在它们之间轻松切换。 Conda 是为 Python 程序创建的,适用于 Linux,OS X 和Windows,也可以打包和分发其他软件。安装condaconda分为anaconda和miniconda。anaconda是包含一些常用包的版本(这里的常用不代表你常用 微笑.jpg),...
2020-02-14 17:19:26 1462
原创 hadoop组件---spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode提交python程序在spark中访问s3
我们在上篇文章中已经成功运行使用spark-submit提交了python程序运行spark。hadoop组件—spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode提交python程序和运行pyspark本篇文章记录 在client pod中使用spark-submit提交python程序在spark on k8s中访问s3。进入c...
2020-02-10 17:19:37 1003
原创 hadoop组件---spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode提交python程序和运行pyspark
我们在上篇文章已经学习使用spark on k8s的client mode 运行了spark shell 和提交jar包运行任务。hadoop组件—spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode和使用本篇文章记录运行pyspark和提交python程序。制作有python和java环境和包含有spark2.4.4客户端的镜像...
2020-02-08 22:49:50 1430
原创 hadoop组件---spark实战----遇到问题---executor无法删除
遇到问题----executor无法删除一直重启序号自增如下:[zzq@localhost spark-2.4.4-bin-hadoop2.7]$ kubectl get pods |grep sparkspark-1529-1581160495887-exec-51856 0/1 Error 0 10...
2020-02-08 19:34:21 677
原创 hadoop组件---spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 client mode和使用
我们在之前的文章中已经安装了cluster mode模式和尝试了使用。hadoop组件—spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 cluster modehadoop组件—spark实战----spark on k8s模式k8s原生方式—cluster mode调用运行spark程序本篇文章尝试安装client mode。两种模式的区别c...
2020-02-06 00:56:14 1736 1
原创 hadoop组件---spark实战----spark on k8s模式k8s原生方式---cluster mode调用运行spark程序
我们在上篇文章中已经记录了 如果 安装spark on k8s模式k8s原生方式—cluster mode。hadoop组件—spark实战----spark on k8s模式k8s原生方式安装spark2.4.4 cluster mode本章记录 cluster mode这种方式的spark集群使用方法。首先注意 提交spark命令需要借助 spark的安装包中的spark-submit命...
2020-02-05 17:45:30 2249 1
ssh框架搭建用到的包完整版.zip
2014-07-03
java通过class读写excel的例子
2014-07-01
整合spring和mongodb用到的包和配置文件
2014-01-21
springMVCHibernateShiroBootStrap框架
2017-11-16
cxselect选择城市
2017-09-13
ueditor1.4.3的jsp版utf-8
2017-07-03
bootstrap-fileinput-master.zip
2017-06-23
SpringMVC+Shiro+MongoDB+BootStrap基础框架
2017-05-16
SpringMVC+Shiro+MongoDB基础框架
2017-05-15
hadoop-eclipse-plugin-1.2.1.jar
2016-09-14
hadoop2.2+hbase0.96+hive0.12安装整合详细高可靠文档及经验总结.pdf
2016-06-12
springMVC+maven+hibernate框架
2015-11-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人