Jerry林-CSDN博客

原创 IDEA 出现Cannot Download Sources的问题

有时候明明对应的依赖已经添加了，并且在External Libraries里也看到对应的依赖包了，但想看源码的时候就是看不到详细内容，点download sources也显示Cannot Download Sources，此时只需要在Terminal根目录下输入：mvn dependency:resolve -Dclassifier=sourcesIDEA会重新下载依赖包，下载完后再看源...

2019-02-20 16:30:42 8904 3

原创 HBase 读写流程

Hbase读写流程写流程：· zookeeper中存储了meta表的region信息，从meta表获取相应region信息，然后找到meta表的数据· 根据namespace、表名和rowkey根据meta表的数据找到写入数据对应的region信息· 找到对应的regionserver· 把数据分别写到HLog和MemStore上一份· MemStore达到一...

2019-02-11 16:36:35 268

原创总结几点Kafka性能调优的方法

思考一个问题：高并发的场景都喜欢用Kafka做中间件，为什么？答：消息解耦需要用中间件，Kafka有几点优势：1. 底层消息传递(FileChannel.transferTo API) 运用到Zero-Copy技术，简单概括就是减少数据从内核空间（Kernel Context)到用户空间（Application Context) 之间转换的次数，从而降低CPU资源的开销；参考资料：...

2019-02-06 18:41:33 1296

原创 SparkCore / SparkSQL中窗口函数RANK, DENSE_RANK, ROW_NUMBER的区别

RANK， DENSE_RANK， ROW_NUMBER都是把表中的行按分区内的排序标上序号，但有一点差别：RANK：可以生成不连续的序号，比如按分数排序，第一第二都是100分，第三名98分，那第一第二就会显示序号1，第三名显示序号3。DENSE_RANK：生成连续的序号，在上一例子中，第一第二并列显示序号1，第三名会显示序号2。ROW_NUMBER: 顾名思义就是行的数值，在上一例...

2019-01-28 12:26:47 3882 1

原创 IDEA笔记：设置自动生成SerialVersionUID

SerialVersionUID 在实现接口Serializable 时都会用到，如何在IDEA中设置自动生成这句代码：然后光标移动实现的类名字，ALT+Enter，选Add 'serialVersionUID' field: ...

2019-01-12 16:35:49 242

原创 Spark RDD 初始分区数

local:一个线程 -------- sc.defaultParallelism值为 1local[*]:服务器core数量 ----- sc.defaultParallelism的值为 8local[4]:4个线程 ----- sc.defaultParallelism的值为 4 spark.default.parallelism参数值的说明：如果spark-default.co...

2018-11-13 15:31:30 637

原创 python 3.6 datetime库的几个常用函数

导入datetime库：from _datetime import datetime （1）datetime.now() : 获取当前时间（年月日时分秒微秒）输入：datetime.now()输出：datetime.datetime(2018, 11, 13, 14, 44, 6, 744866)输入：print(datetime.now())输出：2018-11-13 ...

2018-11-13 15:21:42 1562

原创搭建mongoDB Shard集群

这里是用虚拟机模拟mongoDB Shard集群的搭建过程，实际项目中更多的shard server，搭建方法也一致。准备环境：Hosts: lin01.cniao5.com （启动3个configuration server实例，互为replSet, 启动mongos服务）lin02.cniao5.com （启动3个shard server实例,互为replS...

2018-11-06 23:33:37 474

原创 Spark里如何把结果写入MySQL

这里说的Spark包含SparkCore/SparkSQL/SparkStreaming，实际上都一样操作。以下展示的都是实际项目中的代码。方法一：把整个DataFrame一次写入MySQL (DataFrame的Schema要和MySQL表里定义的域名一致） Dataset<Row> resultDF = spark.sql("select hphm,...

2018-11-06 22:43:13 2008

原创 Java里Date类的parse和format方法

Date date = new Date()； //获取当前系统时间，格式为: Thu Nov 01 18:27:06 CST 2018format: 按指定的目标格式把Date对象转换为Stringparse: 按指定的源格式把String转换为Date对象public class test { public static void main(String[] args) ...

2018-11-01 18:52:00 21066 1

原创 left join和left outer join的区别

答案是没区别！left join是left outer join的缩写，所以作用是一样的。另外在SQL里没有区分大小写，也就是left join和LEFT JOIN都是可以的。left join: 包含左表的所有行，对应的右表行可能为空。right join: 包含右表的所有行，对应的左表行可能为空。full join: 只包含左右表都匹配并且不为空的行。...

2018-10-27 02:05:03 104663 4

原创 Linux下的crontab的使用方法

如果提示：-bash: crontab: command not found，表示没有安装crontab，需要手动安装。安装crontab:1. 确认crontab是否安装：执行 crontab 命令如果报 command not found，就表明没有安装2. 安装 crontab执行 yum install -y vixie-cron3. 确认是否安装成功:执行 cronta...

2018-10-26 18:53:47 252

原创记录一下spark SQL里concat_ws和collect_set的作用

官方文档：http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$ concat_ws: 用指定的字符连接字符串例如：连接字符串：concat_ws("_", field1, field2)，输出结果将会是：“field1_field2”。数组元素连接...

2018-10-21 15:39:57 12397 1

转载 Java 时间格式转换大全

Java时间格式转换大全import java.text.*;import java.util.Calendar;public class VeDate {/** * 获取现在时间 * * @return 返回时间类型 yyyy-MM-dd HH:mm:ss */public static Date getNowDate() { Date curren...

2018-10-15 17:30:38 1642

weixin_42379136的博客