云计算
文章平均质量分 84
house.zhang
这个作者很懒,什么都没留下…
展开
-
jupyter notebook 集成R内核
Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。 Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。智能钛为了方便开发人员做数据分析集成了jupyter notebook功能,支持R内核所做的工作如下:R环境安装主要是通过apt-get直接安装RUN apt-ge原创 2020-08-09 20:08:32 · 548 阅读 · 0 评论 -
PySpark包依赖问题解决方案及实践
摘要:hadoop yarn调度pyspark在使用过程中,使用场景不一致,需要安装一些三方依赖,尤其在机器学习算法方面依赖许多科学包如numpy、pandas 、matlib等等,安装这些依赖是一个非常痛苦的过程,本章结合ti产品在私有化过程中依赖包及版本升级等为题进行简单介绍。Spark on yarn分为client模式和cluster模式,在client模式下driver 会运行在提交节点上,该节点也可能不是yarn集群内部节点,这种方式可以根据自己的需要安装软件和依赖,以支撑spark app原创 2020-08-09 20:01:07 · 2860 阅读 · 1 评论 -
hadoop公平调度算法
简介:fair shechedule (公平调度算法),是由facebook提出来的作业调度算法,它的目标是为了所有的作业随着时间的推移,都能够平均得获得相同的功效资源。Fair让hadoop能够更好的处理不同类型的作业并行执行。 1产生背景 Facebook每天都要产生大量的数据,数据的存储管理给facebook带来了很大的困扰,facebook使用hadoop就是看中了hd原创 2012-03-01 17:04:04 · 3109 阅读 · 0 评论 -
云计算异构集群系统存在的问题
异构集群系统存在的问题 现有的Hadoop调度器都是建立在同构集群的假设前提下,具体假设如下:1)集群中各个节点的性能完全一样2)对于reduce task,它的三个阶段:copy、sort和reduce,用时各占1/33)同一job的同类型的task是一批一批完成的,他们用时基本一样实际当中却不然,集群系统需要面对:1)处理机具有不同计算速原创 2012-03-01 17:09:33 · 1919 阅读 · 0 评论 -
五种Spark大数据任务部署的方式
Deploying 部署提交应用spark home的bin目录下有个spark-submit脚本是用来在集群模式下启动应用的。通过统一的接口方式可用于所有spark支持的集群管理器,而不需要特别为每种进行格外的配置。打包应用的依赖如果你的代码依赖于其它项目,你需要和你的应用打包在一起,以便于分发代码到集群中。对于python应用,可以使用spark-submit的 --py-files参...原创 2018-11-25 22:55:41 · 489 阅读 · 0 评论 -
Spark简单介绍
spark是什么?spark是基于内存计算的通用大数据并行计算框架,是一个快速、通用可扩展的大数据分析引擎。它给出了大一统的软件开发栈,适用于不同场合的分布式场景,如批处理、迭代算法、交互式查询、流处理、机器学习和图计算。spark组件图1 spark软件栈SparkSQL:提供了类sql方式操作结构化半结构化数据。SparkStreaming:提供了近乎实时的流式数据处理,与stor...原创 2018-11-24 23:18:22 · 3373 阅读 · 1 评论