自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (1)
  • 收藏
  • 关注

原创 IDEA 出现Cannot Download Sources的问题

有时候明明对应的依赖已经添加了,并且在External Libraries里也看到对应的依赖包了,但想看源码的时候就是看不到详细内容,点download sources也显示Cannot Download Sources,此时只需要在Terminal根目录下输入:mvn dependency:resolve -Dclassifier=sourcesIDEA会重新下载依赖包,下载完后再看源...

2019-02-20 16:30:42 8835 3

原创 HBase 读写流程

Hbase读写流程写流程:·  zookeeper中存储了meta表的region信息,从meta表获取相应region信息,然后找到meta表的数据·  根据namespace、表名和rowkey根据meta表的数据找到写入数据对应的region信息·  找到对应的regionserver·  把数据分别写到HLog和MemStore上一份·  MemStore达到一...

2019-02-11 16:36:35 238

原创 总结几点Kafka性能调优的方法

思考一个问题:高并发的场景都喜欢用Kafka做中间件,为什么?答:消息解耦需要用中间件,Kafka有几点优势:1. 底层消息传递(FileChannel.transferTo API) 运用到Zero-Copy技术,简单概括就是减少数据从内核空间(Kernel Context)到用户空间(Application Context) 之间转换的次数,从而降低CPU资源的开销;参考资料:...

2019-02-06 18:41:33 1285

原创 SparkCore / SparkSQL中窗口函数RANK, DENSE_RANK, ROW_NUMBER的区别

RANK, DENSE_RANK, ROW_NUMBER都是把表中的行按分区内的排序标上序号,但有一点差别:RANK:可以生成不连续的序号,比如按分数排序,第一第二都是100分,第三名98分,那第一第二就会显示序号1,第三名显示序号3。DENSE_RANK: 生成连续的序号,在上一例子中,第一第二并列显示序号1,第三名会显示序号2。ROW_NUMBER: 顾名思义就是行的数值,在上一例...

2019-01-28 12:26:47 3828 1

原创 IDEA笔记 :设置自动生成SerialVersionUID

SerialVersionUID 在实现接口Serializable 时都会用到,如何在IDEA中设置自动生成这句代码:然后光标移动实现的类名字,ALT+Enter, 选Add 'serialVersionUID' field:  ...

2019-01-12 16:35:49 224

原创 Spark RDD 初始分区数

local:一个线程 -------- sc.defaultParallelism值为 1local[*]:服务器core数量 ----- sc.defaultParallelism的值为 8local[4]:4个线程 ----- sc.defaultParallelism的值为 4 spark.default.parallelism参数值的说明:如果spark-default.co...

2018-11-13 15:31:30 620

原创 python 3.6 datetime库的几个常用函数

导入datetime库:from _datetime import datetime (1)datetime.now() : 获取当前时间 (年月日时分秒微秒)输入:datetime.now()输出:datetime.datetime(2018, 11, 13, 14, 44, 6, 744866)输入:print(datetime.now())输出:2018-11-13 ...

2018-11-13 15:21:42 1529

原创 搭建mongoDB Shard集群

这里是用虚拟机模拟mongoDB Shard集群的搭建过程,实际项目中更多的shard server,搭建方法也一致。准备环境:Hosts:     lin01.cniao5.com    (启动3个configuration server实例,互为replSet, 启动mongos服务)lin02.cniao5.com    (启动3个shard server实例,互为replS...

2018-11-06 23:33:37 441

原创 Spark里如何把结果写入MySQL

这里说的Spark包含SparkCore/SparkSQL/SparkStreaming,实际上都一样操作。以下展示的都是实际项目中的代码。方法一:把整个DataFrame一次写入MySQL (DataFrame的Schema要和MySQL表里定义的域名一致) Dataset<Row> resultDF = spark.sql("select hphm,...

2018-11-06 22:43:13 1993

原创 Java里Date类的parse和format方法

Date date = new Date(); //获取当前系统时间,格式为: Thu Nov 01 18:27:06 CST 2018format: 按指定的目标格式把Date对象转换为Stringparse: 按指定的源格式把String转换为Date对象public class test { public static void main(String[] args) ...

2018-11-01 18:52:00 20915 1

原创 left join和left outer join的区别

答案是没区别!left join是left outer join的缩写,所以作用是一样的。另外在SQL里没有区分大小写,也就是left join和LEFT JOIN都是可以的。left join: 包含左表的所有行,对应的右表行可能为空。right join: 包含右表的所有行,对应的左表行可能为空。full join: 只包含左右表都匹配并且不为空的行。...

2018-10-27 02:05:03 104382 4

原创 Linux下的crontab的使用方法

如果提示:-bash: crontab: command not found,表示没有安装crontab,需要手动安装。安装crontab:1. 确认crontab是否安装:执行 crontab 命令如果报 command not found,就表明没有安装2. 安装 crontab执行 yum install -y vixie-cron3. 确认是否安装成功:执行 cronta...

2018-10-26 18:53:47 222

原创 记录一下spark SQL里concat_ws和collect_set的作用

官方文档:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$ concat_ws: 用指定的字符连接字符串例如:连接字符串:concat_ws("_", field1, field2),输出结果将会是:“field1_field2”。数组元素连接...

2018-10-21 15:39:57 12300 1

转载 Java 时间格式转换大全

Java时间格式转换大全import java.text.*;import java.util.Calendar;public class VeDate {/** * 获取现在时间 * * @return 返回时间类型 yyyy-MM-dd HH:mm:ss */public static Date getNowDate() { Date curren...

2018-10-15 17:30:38 1633

hadoop-2.5.0-cdh5.3.6 编译native包

最近在学习大数据,自己手动编译native包。 操作环境: 1. Centos 6.5 2. hadoop-2.5.0-cdh5.3.6 现传上编译步骤和native包

2018-06-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除