自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

csdnmrliu的博客

不会敲代码的篮球运动员不是好厨子

  • 博客(20)
  • 收藏
  • 关注

原创 Java本地模式开发Spark程序开发遇到的问题

1. spark应用打成Jar包提交到spark on yarn执行时依赖冲突解决:使用maven项目开发时,可以把spark、scala、hadoop相关依赖添加以下标签<scope>provided</scope>例如:<dependencies> <!-- scala-library -->

2018-09-06 17:29:45 1331

原创 工作中碰到的Java问题整理及解决方案

1.SOH分隔符(Notepad++)SOH是ASCII码表为ASCII值==1的控制字符(不可见)char字符:0x01完整ASCII码表见:https://www.cnblogs.com/myblesh/articles/2495378.htmlJava String.split() 以SOH为分隔符的字符串//第一种方案(最优解决方案)lineTxt.split("\...

2018-09-28 09:17:50 10120 1

原创 Hadoop、Spark处理小文件

注:hadoop基于2.7.5;spark基于2.3.1-hadoop2.7-scala2.11.81.hadoop处理小文件(提升mapreduce性能,没有解决namenode内存问题)   2.spark处理小文件

2018-09-27 09:14:38 829

原创 Hadoop、Spark计数器(累加器)使用

1. MapReduce中自定义计数器(枚举方式)1.1 首先定义并使用计数器//第一种 组名+计数器名context.getCounter(groupName, counterName).increment(1);//参数类型为String //第二种 Enumcontext.getCounter(counterName).increment(1);//参数类型为Enum//...

2018-09-25 18:18:29 4404 1

原创 hive使用beeline将hql结果导出为csv文件

编写shell脚本自动化导出指定hql结果到csv文件并删除sql语句和关闭连接日志1. hql文件准备select a.enodebid as enodebid, sum(xdrsize) as totalXdrSize, sum(failed) as totalFailed, sum(success) as totalSuccess from test.i...

2018-09-21 10:07:28 6927

原创 HIVE SQL 实践

1. select语句1.1 简单查询注:最好不要使用 select *select * from test.imsiBackFill where date_id = 20180920 and hour = 10 limit 10;1.2 统计行数select count(1) from test.imsiBackFill where date_id = 2018092...

2018-09-20 11:51:47 430

原创 Hadoop、Spark(Java、scala)实现分组、排序

 1. MapReduce实现分组、排序1.1分组//在MapReduce 主类设置自定义分组Classjob.setGroupingComparatorClass((Class<? extends RawComparator> cls);//实例job.setGroupingComparatorClass(S1apEnbidGroupingComparator....

2018-09-20 11:27:19 774 2

原创 Hive基础操作

1.hive建表1.1建内部表(文本)create table if not exists test.imsiBackFill( s1apid string, enodebid string, xdrsize int, failed int, success int)PARTITIONED BY( date_id string, ...

2018-09-20 10:52:06 194

原创 Linux处理格式化文件(awk、sort等)

目前有这样的一些数据,获取按照‘‘|’’ 分隔,按照第二列求第三列的和并按照和降序排序取前10数据#用'|'分隔,按照第三列数值降序排序取前10cat part-r-0000*|sort -t "|" -k3rn|head -10#获取按照'|' 分隔,按照第二列求第三列的和 => 取和不为0的 => 按照和降序排序 => 取前10cat ./*|awk -F ...

2018-09-13 11:08:47 703

原创 Linux-Centos6.8下安装scala2.11.8

win10环境下安装scala请见 https://blog.csdn.net/csdnmrliu/article/details/823812161. 上传安装包(根据spark的版本确定)下载地址:https://www.scala-lang.org/download/all.html首先,确保安装了Java 8 JDK使用wget下载scala-2.11.8安装包w...

2018-09-11 11:13:10 1735

原创 scala项目配置Log4j

1. 添加maven依赖注意scala版本<!-- log4j-api-scala --><dependency> <groupId>org.apache.logging.log4j</groupId> <artifactId>log4j-api-scala_2.11</artifactId> <ver...

2018-09-07 18:05:14 6257

原创 MAVEN将本地Jar包(非MAVEN项目)安装至指定仓库

有时候,我们需要依赖我们自定义的Jar时,maven仓库是没有的,所以我们需要手动安装Jar包。使用命令如下:mvn install:install-file -Dfile=mrlocateStand.jar -DgroupId=com.bonc -DartifactId=mrlocate -Dversion=1.0 -Dpackaging=jar -DlocalRepositoryPat...

2018-09-07 13:26:54 1879

原创 Eclipse设置JVM虚拟内存的三种方式

方式1. 修改Elipse运行JRE默认JVM参数打开Eclipse,选择Window--Preferences...在对话框左边的树上双击Java,再双击Installed JREs,在右边选择前面有对勾的JRE,再单击右边的“Edit”按钮,出现一个 Edit JRE 的对话框,在其中的Default VM Arguments: 框中输入 -Xms128m -Xmx512m ,这样设置Ja...

2018-09-07 09:19:00 15886 1

原创 scala操作文件

1.递归获取指定目录下的所有文件名 /** * 递归获取指定目录下的所有文件名 */ def getAllFileName(dir: File): Iterator[File] = { val d = dir.listFiles.filter(_.isDirectory) val f = dir.listFiles.filter(_.isFile).toIte...

2018-09-05 17:27:54 667

原创 常用软件列表

1.IDEA软件安装包下载地址(历史版本)https://www.jetbrains.com/idea/download/previous.htmlIntelliJ IDEA 2018.1 x64 (Ultimate Edition)百度云盘地址链接: https://pan.baidu.com/s/1PiKI_WmHplPD2ZR5j83PGQ 密码: aeg9激活码:http:...

2018-09-05 15:43:35 5578

原创 TortoiseSVN环境搭建

1.WIN10下安装TortoiseSVN1.1下载安装包TortoiseSVN下载地址:https://tortoisesvn.net/downloads.html同时下载中文简体语言包历史版本 TortoiseSVN 1.9.7, Build 27907 - 64 Bit百度云盘地址链接: https://pan.baidu.com/s/1e0iMNH8lcmrlJ...

2018-09-05 15:43:29 1742

原创 Eclipse常用配置

1.配置SVN插件确保本机已安装TortoiseSVN下载eclipse-svn插件百度云盘地址链接: https://pan.baidu.com/s/145P-QUU8QgkvaDxsXH7ypA 密码: ia4i下载解压将 site-1.8.22目录剪切至 $eclipse_home/dropins 重启Eclipse即可window -- Preferrn...

2018-09-05 15:43:21 352

原创 PyCharm Python开发IDE常用设置

1.Pycharm如何选择自动打开或不打开最近项目file--settings--Appearance&Behavior--System Settings适用于其他 JetBrains IDE

2018-09-05 15:43:12 297

原创 eclispe创建scala+maven项目

使用eclispe编写scala项目时需搭建scala环境、eclispe安装scala插件1.win10下搭建scala环境安装包尽量与spark版本中使用的scala保持一致 解压缩至指定目录下(D:\dev)配置环境变量(右击此电脑 -- 属性 -- 高级系统设置 -- 环境变量 -- 系统环境变量 -- 新建SCALA_HOME)设置系统环境变量:SCALA_H...

2018-09-04 12:41:47 2440

原创 scala解析xml工具

解析xml至Map标签名称用下划线连接 /** * 读取xml 至map */ def readXml2Map(filePath: String): scala.collection.mutable.Map[String, String] = { val xmlFile = XML.loadFile(filePath) // 根节点 val child...

2018-09-03 09:19:39 1351

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除