- 博客(3)
- 收藏
- 关注
转载 转:Hive中的InputFormat、OutputFormat与SerDe
Hive中的InputFormat、OutputFormat与SerDe 1 Reply 原文链接:https://www.coder4.com/archives/4031 前言 Hive中,默认使用的是TextInputFormat,一行表示一条记录。在每条记录(一行中),默认使用^A分割各个字段。 在有些时候,我们往往面对多行,结构化的文档,并需要将其导入Hive处理,此时,就需要自...
2018-09-04 14:12:53 485 1
转载 转:Running Spark on YARN
Running Spark on YARN 原文链接 Spark在 0.6.0版本后支持在YARN(hadoop NextGen)上运行,并且在后续版本中不断改进。 在YARN上启动Spark 首先,确认 HADOOP_CONF_DIR或YARN_CONF_DIR指向的包含了Hadoop集群的配置文件。这些配置用于操作HDFS和连接YARN资源管理器。在这个目录下的这些配置文件将被分发到YA...
2018-09-04 13:39:42 92
转载 再谈collections模块defaultdict()和namedtuple()
defaultdict()和namedtuple()是collections模块里面2个很实用的扩展类型。一个继承自dict系统内置类型,一个继承自tuple系统内置类型。在扩展的同时都添加了额外的很酷的特性,而且在特定的场合都很实用。defaultdict()定义以及作用返回一个和dictionary类似的对象,和dict不同主要体现在2个方面:可以指定key对应的value的类型。不必为默认值...
2018-04-10 14:13:05 115
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人