自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 初探 spark 源码编译

1,从官网下载对应版本的 spark 源码包 点击打开链接,注意:package type 选择 source code。2,解压后在有pom.xml的目录下面,去运行以下命令进行编译。mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.1 -DskipTests clean package编译环境:maven 版本:3.5.2 编译出错:...

2018-05-17 23:10:38 127

原创 Spring Data JPA

Spring data jpa 创建Query支持的关键词:KeywordSampleJPQL snippetAndfindByLastnameAndFirstname… where x.lastname = ?1 and x.firstname = ?2OrfindByLastnameOrFirstname… where x.lastname = ?1 or x.firstname = ?2Is...

2018-05-17 23:10:23 149

原创 JVM 内存概要

1,JVM 内存主要分为堆内存和非堆内存:    堆内存:主要是给应用的    非堆内存:主要是给jvm自己用2,堆内存主要分为:    年轻代:    老年代:    永久代:(JDK7 和  JDK8中不一样,JDK8中没有永久代,而是被替换成了 metadata 代,默认没有上限,也就是不会像jdk7中那样出现永久代爆满而出现宕机的情况,没有上限并不代表不能设置上限,可以像jdk7一样设置永...

2018-03-20 16:10:05 166

原创 Jackson

Jackson 常用注解:忽略为Null的属性:@JsonInclude(JsonInclude.Include.NON_NULL) 指定忽略哪个属性:@JsonIgnore属性为 空(“”) 或者为 NULL 都不序列化 :@JsonInclude(JsonInclude.Include.NON_EMPTY) 若要通过代码设定:ObjectMapper mapper = new ObjectMa...

2018-03-15 18:09:36 153

原创 scala 学习记录

1,scala 定义类的时候是可以有类变量的,这一点与java不一样。class Point(xc: Int, yc: Int) { var x: Int = xc var y: Int = yc def move(dx: Int, dy: Int) { x = x + dx y = y + dy println ("x 的坐标点: " + ...

2018-03-15 08:58:20 157

Hmm隐马科可夫模型理论

定义:每个状态只依赖之前有限个状态。    1阶马尔科夫:二元语言模型初始概率:一个词出现在所有文章的第一个词的文章篇数/总文章篇数状态转移概率:一个词紧跟着另一个词出现的篇数/总文章篇数发射概率测序序列状态序列BMES: B(开头) E(结束) M(中间)S(单个出现)...

2018-03-14 23:14:38 260

原创 windows 下 git 安装

1,下载 git 正常安装 地址 :https://git-scm.com/download/win2, 在 idea 的 setting 中找到 versionControll 中找到 git 设置 git.exe 安装路径 ,并配置 github 的地址和用户名及密码。...

2018-03-13 22:13:55 175

原创 ELK 集中式日志收集系统

ELK再现的目的 :解决 分布式系统 日志的 收集、存储、传输、分析、警告。ELK 是三个单词的缩写:Elasticsearch、logstash、kibana。    Elasticsearch : 分布式搜索引擎 。    logstash : 对日志进行收集、过滤并存储。    kibana : 为日志分析提供友好的web界面 ,帮助汇总、分析 和 搜索重要的数据日志。具体的使用可以参考: ...

2018-03-13 13:24:34 370

原创 ETL

ETL : 从 数据库或者文本文件 中抽取 数据 到 数据仓库 的过程。指标:关联、转换、增量、调度和监控抽取方式:    全量抽取:类似于数据迁移。    增量抽取:            触发器:源表数据的 insert,update,delete动作触发写入一个临时表,只对临时表的数据进行抽取。缺点:会对业务数据库造成一定压力。            时间戳:通过时间字段锁定抽取范围,有的数...

2018-03-13 13:08:54 339 1

原创 Pig 与 Hive 的区别

Hive : 将数据存储到 HDFS ,通过接近于 标准SQL(并非标准SQL) 的方式来简化 MapReduce 的开发模式,更适用于数据仓库。延伸: 什么是数据仓库?数据库与数据仓库有什么区别?    Pig : 一种编程语言,是为了简化 MapReduce 开发过中调用 javaApi 的代码量。...

2018-03-13 11:30:27 238

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除