2017年12月_about云

12月 11月

转载 hadoop3.0 Yarn支持网络资源：network原理设计文档说明【中文】

问题导读1.网络作为Yarn的资源，有什么好处？2.Yarn是否只支持调度和强制执行“传出流量”？3.Yarn是否支持入口流量？4.DistributedShell是否可以让用户指定网络带宽？5.hadoop3.0网络设计存在哪些已知的问题?开始在学习之前，其实需要一定的基础，因为Yarn里面使用了Linux TC和Cgroup。其实这两个不是新鲜的概念，很多人已经通过他们控制Linux流量，而这

2017-12-27 00:00:00 713

原创 Hadoop3.0: YARN Resource配置说明

问题导读1.yarn默认情况下使用哪些资源？2.Yarn如何实现扩展自定义资源？3.自定义资源，可以在哪个配置文件中配置？4.哪些配置可以在yarn-site.xml文件或则 resource-types.xml文件配置？5.yarn有哪三种Containers？6.三种Container如何配置请求的CPU，memory等值？1.概述yarn支持可扩展资源类型.所有节点、应用程序、队列，默认情况

2017-12-23 00:00:00 1249

转载 hadoop3.0可用【 GA】版发布与alpha1版比较有哪些不同

问题导读1.容器新增加了哪个概念？2.Opportunistic类型容器有什么特点？3.为何说Opportunistic类型容器提高集群效率？4.hadoop3.0，可以通过什么方式来配置Capacity 调度？5.yarn资源类型除了cpu和内存，还可以自定义哪些类型？上一篇：Apache Hadoop 3.0.0-alpha1版发布做了哪些改进http://www.aboutyun.com/f

2017-12-16 00:00:00 1037

转载 spark sql编程之实现合并Parquet格式的DataFrame的schema

问题导读1.DataFrame合并schema由哪个配置项控制？2.修改配置项的方式有哪两种？3.spark读取hive parquet格式的表，是否转换为自己的格式？首先说下什么是schema，其实这跟通俗来讲，与我们传统数据表字段的名称是一个意思。明白了这个，我们在继续往下看。合并schema首先创建RDD，并转换为含有两个字段"value", "square"的DataFrame[Scala

2017-12-14 00:00:00 3760

转载 spark2 sql读取json文件的格式要求

问题导读1.spark2 sql如何读取json文件？2.spark2读取json格式文件有什么要求？3.spark2是如何处理对于带有表名信息的json文件的?spark有多个数据源，json是其中一种。那么对于json格式的数据，spark在操作的过程中，可能会遇到哪些问题？这里首先我们需要对json格式的数据有一定的了解。json数据有两种格式：1.对象表示2.数组表示二者也有嵌套形式。比如

2017-12-07 00:00:00 3894

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人