MCmumu5651-CSDN博客

原创初探 spark 源码编译

1，从官网下载对应版本的 spark 源码包点击打开链接，注意：package type 选择 source code。2，解压后在有pom.xml的目录下面，去运行以下命令进行编译。mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.1 -DskipTests clean package编译环境：maven 版本：3.5.2 编译出错：...

2018-05-17 23:10:38 127

Spring data jpa 创建Query支持的关键词：KeywordSampleJPQL snippetAndfindByLastnameAndFirstname… where x.lastname = ?1 and x.firstname = ?2OrfindByLastnameOrFirstname… where x.lastname = ?1 or x.firstname = ?2Is...

2018-05-17 23:10:23 149

原创 JVM 内存概要

1，JVM 内存主要分为堆内存和非堆内存：堆内存：主要是给应用的非堆内存：主要是给jvm自己用2,堆内存主要分为：年轻代：老年代：永久代：（JDK7 和 JDK8中不一样，JDK8中没有永久代，而是被替换成了 metadata 代，默认没有上限，也就是不会像jdk7中那样出现永久代爆满而出现宕机的情况，没有上限并不代表不能设置上限，可以像jdk7一样设置永...

2018-03-20 16:10:05 166

原创 Jackson

Jackson 常用注解：忽略为Null的属性：@JsonInclude(JsonInclude.Include.NON_NULL) 指定忽略哪个属性：@JsonIgnore属性为空（“”）或者为 NULL 都不序列化 :@JsonInclude(JsonInclude.Include.NON_EMPTY) 若要通过代码设定：ObjectMapper mapper = new ObjectMa...

2018-03-15 18:09:36 153

原创 scala 学习记录

1，scala 定义类的时候是可以有类变量的，这一点与java不一样。class Point(xc: Int, yc: Int) { var x: Int = xc var y: Int = yc def move(dx: Int, dy: Int) { x = x + dx y = y + dy println ("x 的坐标点: " + ...

2018-03-15 08:58:20 157

Hmm隐马科可夫模型理论

定义：每个状态只依赖之前有限个状态。 1阶马尔科夫:二元语言模型初始概率：一个词出现在所有文章的第一个词的文章篇数/总文章篇数状态转移概率：一个词紧跟着另一个词出现的篇数/总文章篇数发射概率测序序列状态序列BMES: B(开头） E(结束） M(中间）S(单个出现）...

2018-03-14 23:14:38 260

原创 windows 下 git 安装

1，下载 git 正常安装地址：https://git-scm.com/download/win2, 在 idea 的 setting 中找到 versionControll 中找到 git 设置 git.exe 安装路径，并配置 github 的地址和用户名及密码。...

2018-03-13 22:13:55 175

原创 ELK 集中式日志收集系统

ELK再现的目的：解决分布式系统日志的收集、存储、传输、分析、警告。ELK 是三个单词的缩写：Elasticsearch、logstash、kibana。 Elasticsearch : 分布式搜索引擎。 logstash : 对日志进行收集、过滤并存储。 kibana : 为日志分析提供友好的web界面，帮助汇总、分析和搜索重要的数据日志。具体的使用可以参考： ...

2018-03-13 13:24:34 370

原创 ETL

ETL : 从数据库或者文本文件中抽取数据到数据仓库的过程。指标：关联、转换、增量、调度和监控抽取方式：全量抽取：类似于数据迁移。增量抽取：触发器：源表数据的 insert,update,delete动作触发写入一个临时表，只对临时表的数据进行抽取。缺点：会对业务数据库造成一定压力。时间戳：通过时间字段锁定抽取范围，有的数...

2018-03-13 13:08:54 339 1

原创 Pig 与 Hive 的区别

Hive : 将数据存储到 HDFS ,通过接近于标准SQL（并非标准SQL）的方式来简化 MapReduce 的开发模式，更适用于数据仓库。延伸：什么是数据仓库？数据库与数据仓库有什么区别？ Pig :　一种编程语言，是为了简化 MapReduce 开发过中调用 javaApi 的代码量。...

2018-03-13 11:30:27 238

MCmumu5651的博客