窗外的屋檐

不再有遗憾伴随着苍老爬满黄昏的心藤,不再有愧疚的墓碑孤立于生命的结尾...

Hive向SparkSQL迁移总结

Hive & SparkSQL使用不同点 hive中对空格和制表符的不明感,spark-sql中敏感(通过压缩sql,去掉敏感符号) 在shell中提交hive -e 和spark-sql -e,spark-sql需要用""显式的把字符串引起来 SparkS...

2019-07-11 11:10:26

阅读数 36

评论数 0

git托管上线规范

序号 具体步骤 执行人 备注 1 在测试机 xxx@xxx:/xxx中修改 自建自己到开发分支,并在上面修改 确定好分支再修改,禁止在master分支上操作 Developer...

2019-07-08 18:23:50

阅读数 9

评论数 0

maven打包日常总结

1、将第三方依赖性jar包中的文件打包入jar中,打包时修改引入jar包的包名,防止包冲突 <!--将第三方依赖性jar包中的文件打包入jar中--> <plugin> &...

2019-06-06 11:25:28

阅读数 38

评论数 0

SparkStreaming-Kafka数据的消费

1、保证元数据恢复,就是Driver端挂了之后数据仍然可以恢复 // 创建StreamingContext对象 val ssc: StreamingContext = StreamingContext.getOrCreate(checkpointPath, () =&gt...

2019-05-23 15:52:48

阅读数 26

评论数 0

SparkStreaming-日志的等级的设置

我们在构建项目的时候日志等级设置是很有必要,日志太多太乱会直接影响我们的判读,SparkStreaming由于是流式处理日志会更加的多。 1、屏蔽系统日志 //请注意是apache.log4j不是org.slf4j import org.apache.log4j.{Level, Logger...

2019-05-23 15:44:36

阅读数 38

评论数 0

jieba分词器关键词提取在spark中的应用(java版-scala调用)

启动spark-shell ## jieba-analysis-1.0.3-SNAPSHOT.jar 为bluemapleman提供,作者进行了打包。链接: https://pan.baidu.com/s/1FeSkrueoXB303_KnsExPog 提取码: negi spark-she...

2019-05-07 11:49:47

阅读数 149

评论数 0

通过maven命令手动安装jar到本地仓库

使用maven来管理构件项目的时候往往会遇到这样一个问题,你的项目依赖于一个第三方的jar(这里就拿jar类型的构件举例了),但是这个jar在maven的中心仓库没,这时怎么在pom.xml中引用这个third.jar呢? 在pom中引用依赖的的第三方构件的时候,这些构件可以是来源于maven的...

2019-05-07 11:29:31

阅读数 169

评论数 0

CentOS 6.10安装Python2.7.3(包含setuptools、pip)

安装注意事项: 千万不要卸载系统的python,可能会导致yum无法使用,甚至有重新装机的风险 注意程序的安装路径 注意版本的冲突 安装准备 查看当前系统中的python版本 python --version 返回Python 2.6.6为正常。 检查CentOS版本 ca...

2019-04-30 14:48:28

阅读数 83

评论数 0

spark-sql 手动动态指定控制台输出日志级别

登录服务器客户端 把spark/conf/log4j.properties.template 复制到A用户根目录 (改名为log4j.properties),修改其中的一行为log4j.rootCategory=WARN, console 启动spark-sql spark-sql--...

2019-04-18 16:45:28

阅读数 28

评论数 0

Hadoop中查看HDFS中的一个文件的位置信息

指令 hadoop fsck /user/hadoop/filename-files -blocks-locations-racks -files 文件分块信息, -blocks 在带-files参数后才显示block信息 -locations 在带-blocks参数后才显示block块所...

2019-04-11 14:16:56

阅读数 384

评论数 0

Spark DataFrame 学习整理

import org.apache.spark.sql.{SQLContext, Row} import org.apache.spark.sql.types.{StringType, IntegerType, StructField, StructType} import org.apache....

2019-03-11 17:36:17

阅读数 56

评论数 0

Spark DataFrame pivot()实现分组、透视、求和

问题: 对A列和B列进行分组,然后在C列上进行透视操作并对D列数据进行求和 实现功能如下: 实现方式: Spark中语法为:df.groupBy(“A”, “B”).pivot(“C”).sum(“D”),显然这种语法格式非常直观,但这其中也有个值得注意的地方:为取得更好的性能,需要明...

2019-03-07 16:10:37

阅读数 428

评论数 0

将以有的项目发布到github上

1、在github上创建项目(最好本地项目名称和git项目名称相同) 2、在本地项目的根目录下进行操作 # 当前项目的目录中生成本地的git管理(会发现在当前目录下多了一个.git文件夹) git init # 将项目上所有的文件添加到仓库中的意思,如果想添加某个特定的文件,只需把.换成这个...

2019-02-28 15:28:40

阅读数 42

评论数 0

Spark项目问题记录

项目:analysys-etl Java模块 1、Base64问题 import org.apache.commons.codec.binary.Base64;这个包 版本之间存在问题。 替换为import org.apache.commons.net.util.Base64; 2、@...

2019-02-26 18:29:54

阅读数 66

评论数 0

Hadoop 设置任务执行的队列以及优先级

作业提交到的队列:mapreduce.job.queuename 作业优先级:mapreduce.job.priority,优先级默认有5个:LOW VERY_LOW NORMAL(默认) HIGH VERY_HIGH 1、静态设置 1.1 Pig版本 SET mapreduce.job.qu...

2019-02-21 11:44:39

阅读数 85

评论数 0

Linux任务前后台的切换

Shell支持作用控制,有以下命令实现前后台切换: 1. command& 让进程在后台运行 2. jobs 查看后台运行的进程 3. fg %n 让后台运行的进程n到前台来 4. bg %n 让进程n到后台去 5. kill %n 杀死job PS:"...

2019-02-21 11:31:20

阅读数 34

评论数 0

Hive、Sparksql、Presto、Impala、Hawq、Clickhouse、Greenplum大数据查询引擎对比

导读 现在大数据组件非常多,众说不一,在每个企业不同的使用场景里究竟应该使用哪个引擎呢?这是易观Spark实战营出品的开源Olap引擎测评报告,团队选取了Hive、Sparksql、Presto、Impala、Hawq、Clickhouse、Greenplum大数据查询引擎,在原生推荐配置情况下...

2019-01-21 10:52:38

阅读数 1369

评论数 0

win10使用L2TP连接失败,报远程服务器未响应错误解决办法

一.错误描述:无法建立计算机与VPN服务器之间的网络连接... 原因是L2TP连接需要IPSec加密,远程服务器未响应说明IPSec加密被禁用了,需要在注册表启用它,具体步骤如下: 1、Win+R调出运行菜单,输入regedit,回车 2、找到:HKEY_LOCAL_MACHINE\SY...

2019-01-12 17:52:02

阅读数 1556

评论数 0

Markdown流程图Demo

Created with Raphaël 2.2.0StartMy OperationYesor No?catch something...Endparallel tasksMy Subroutineyesno Created with Raphaël 2.2.0开始获取Kafka同步状态同步完成...

2019-01-08 18:27:45

阅读数 120

评论数 0

MapReduce源码解析之InputFormat

导读        上一篇文章介绍了MapReduce中Map(映射)的实现者Mapper,本章将会介绍MapReduce中的输入文件的处理者InputFormat。MapReduce程序获取的数据类型多种多样,当程序把数据输入给Mapper时,需要格式化读取,例如读取普通文本文件许需要设置 j...

2018-12-27 11:30:00

阅读数 78

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭