自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

窗外的屋檐

不再有遗憾伴随着苍老爬满黄昏的心藤,不再有愧疚的墓碑孤立于生命的结尾

  • 博客(11)
  • 资源 (3)
  • 收藏
  • 关注

原创 Mac小技巧

1、MAC在Finder栏显示所浏览文件夹路径的方法 操作步骤: 打开“终端”(应用程序-》实用工具),输入以下两条命令: defaults write com.apple.finder _FXShowPosixPathInTitle -bool TRUE;killall Finder 恢复默认状态,打开“终端”(应用程序-》实用工具),输入以下两条命令: de...

2018-04-26 10:39:50 162

原创 IDEA中maven总结

1、IDEA 中maven已经默认安装 Mac中的安装位置: /Applications/’IntelliJ IDEA.app’/Contents/plugins/maven/lib/maven3/bin/ 只需要将其配置到环境变量中即可(需要修改一下执行文件的命令)2、将本地jar包导入到maven local repository 用maven-install-pl...

2018-04-25 14:40:07 643

原创 GreenPlum日常总结

1、计算占比--保留小数点两位,拼接%round((a2.uv-a1.uv)/a1.uv::numeric*100,2)||'%' as ratio

2018-04-24 16:09:36 2125 2

原创 GreenPlum文章

1、GreenPlum总结2、Greenplum基础及下载(整理)3、PostgreSQL 9.4.4 中文手册

2018-04-24 10:44:17 386

转载 从 Windows 过度到 Mac 必备快捷键对照表(IntelliJ IDEA)

Mac 键盘符号说明⌘ == Command ⇧ == Shift ⇪ == Caps Lock ⌥ == Option ⌃ == Control ↩ == Return/Enter ⌫ == Delete ⌦ == 向前删除键(Fn+Delete) ↑ == 上箭头 ↓ == 下箭头 ← == 左箭头 → == 右箭头 ⇞ == Page Up(Fn+↑) ⇟ ==...

2018-04-19 10:00:29 205

原创 MapReduce文章

1、使用ToolRunner运行Hadoop程序基本原理分析 2、Java命令行选项解析之Commons-CLI & Args4J & JCommander

2018-04-18 17:44:02 256

转载 Git SSH Key 生成步骤

Git是分布式的代码管理工具,远程的代码管理是基于SSH的,所以要使用远程的Git则需要SSH的配置。github的SSH配置如下:一 、设置Git的user name和email: git config –global user.name “xuhaiyan” git config –global user.email “[email protected]...

2018-04-18 15:50:37 146

原创 MAC通过ssh使用.pem文件登录服务器

在终端(我使用的是iTerm2)执行命令如下(先切到root用户下面): 1.检查权限问题 ssh -i key.pem ssh -i key.pem root@IP ——如果出现报错说明这个问题是文件的权限太大了,需要给小点 sudo chmod 600 key.pem ssh -i key.pem root@IP2.使用ssh-add 添加key文...

2018-04-17 19:23:00 2463

原创 hive优化-存储格式

Hive中的文件格式大致上分为面向行和面向列两类: 面向行:同一行的数据存储在一起,即连续存储。TextFile,SequenceFile。采用这种方式,如果只需要访问行的一小部分数据,亦需要将整行读入内存,推迟序列化一定程度上可以缓解这个问题,但是从磁盘读取整行数据的开销却无法避免。面向行的存储适合于整行数据需要同时处理的情况。 面向列:整个文件被切割为若干列数据,每一列数据一起存...

2018-04-13 11:46:37 377

原创 MR案例:Map Join

适用场景:一张表十分小【key不可重复】、一张表非常大。 用法:在Job提交时,首先将小表加载到 DistributedCache 分布式缓存中,然后从DistributeCache中读取小表解析成 key/value 保存到内存中(可以放在Hash Map等容器中)。然后扫描大表中的每条记录的 key 是否能在内存中找到相同 join key 的记录,如果有则直接输出结果。代...

2018-04-03 11:30:08 465

原创 MR案例:Left Outer Join

适用场景:适合两个大表连接操作 用法:Join操作在reduce task中完成 【默认的join方式】,map端按照连接字段进行hash,reduce 端完成连接操作代码实现:package join.map;import java.io.IOException;import java.util.ArrayList;import java.util.List;i...

2018-04-03 10:51:06 484

A_Comparison_of_ORC-Compress_Performance_with_Big_.pdf

A_Comparison_of_ORC-Compress_Performance_with_Big_.pdf

2020-05-08

jieba分词器包含关键词提取(java版)

jieba分词器包含关键词提取(java版,可以使用scala调用)

2019-05-07

hive入门资料

hive函数大全,hive中的一些hive函数,以及具体的实例

2018-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除