spark
昵称诚诚
stay hungry, stay foolish
展开
-
spark spark_deploy_mode配置详解
spark的配置里有个:spark_deploy_mode,可以是client 或cluster –deploy-mode: Whether to deploy your driver on the worker nodes (cluster) or locally as an external client (client) (default: client)注意这里的client和c原创 2017-05-27 14:26:01 · 8606 阅读 · 0 评论 -
Spark 日志配置
在使用spark 环境开发时,有时为了方便,需要pyspark环境下执行一些代码,但默认的日志级别是INFO, 这样会输出超级多的日志,界面一几乎是一直在刷屏状态。可以调一下日志的输出级别。一、修改日志配置在$SPARK_HOME/conf 下找到 log4j.properties.template,复制一份到新文件log4j.properties 可直接修改文件名称为log4j.pr原创 2015-12-28 15:21:57 · 2238 阅读 · 0 评论 -
Hive parquet 表查询报错
把数据存成parquet 格式后,建立对应的表,但是查询的时候会报下面的错误:Hive Runtime Error while processing row [Error getting row data with exception java.lang.UnsupportedOperationException: Cannot inspect org.apache.hadoop.io.LongWr原创 2017-09-12 16:23:05 · 8390 阅读 · 2 评论 -
hive2.1.1 和 spark2.1.2
把hive-site.xml 配置copy到spark conf 配置目录下, 启动完spark2.12,用pyspark命令进入,会报 Caused by: org.apache.hadoop.hive.metastore.api.MetaException: Hive Schema version 1.2.0 does not match metastore’s schema ver原创 2017-11-07 15:23:35 · 1983 阅读 · 0 评论 -
Hue 4.1 安装
先下载最新版本,http://gethue.com/hue-4-1-is-out/ 解压,进入目录hue-4.1.0,执行 make apps这个过程中会报很多 gcc 等各咱库找不到等错误,这种是没有安装相应的类库造成的,本人centos7,用yum 更新或安装相应的库之后,就可以。编译成功之后需要更新一下配置,包括hue配置和hadoop 配置 配置 Hue的配置集中在$HUE_HO原创 2017-10-26 09:35:19 · 7166 阅读 · 1 评论 -
json日志文件通过spark转存成parquet方案
收集的业务数据为json格式,准备利用parquet 格式重新存储到hive表,以节约空间并方便后续通过spark 或 hive 进行分析查询。 (示例代码是用python) 具体步骤是: 1. 用spark读取json数据后,得到一个dataframepath = '/xx/xxx/xxx.json'df = sqlContext.read.json(path)2. dataframe 经原创 2017-08-15 16:01:37 · 5141 阅读 · 5 评论