自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 Elasticsearch 特定场景下使用

假设一: 现在有一批互联网数据信息字段名字name联系人listeners开始时间starttime结束时间endtime位置position联系内容content需求一:实时搜索到在目标时间内和目标地(方圆3千米)内所有联系过的人员需求二:实时统计在目标时间内和目标人所有联系过的人员及次数需求三:实时统计在目标时间内和目标...

2019-05-27 22:51:10 465

原创 Elasticsearch -- 基本概念

ElasticsearchElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。indexElasticSearch索引(Index)定义了文档的逻辑存储和字段类型,索引是文档的集合,文档以索...

2019-05-26 23:41:35 198

原创 数据结构 -- 红黑树

2-3 树2-3 树是最简单的 B 树,2-3 树一颗绝对平衡的树,2-3 树满足二分搜索树的基本性质,在2-3 树中有两种节点,一种存放一个元素,另外一种存在两个元素。2-3 树添加元素红黑树红黑树(Red Black Tree) 是一种自平衡二叉查找树,是在计算机科学中用到的一种数据结构,典型的用途是实现关联数组。它是在1972年由Rudolf Bayer发明的,当时被称为平衡...

2019-05-22 11:31:30 140

原创 RDD -- 其他操作

RDD 缓存级别说明MEMORY_ONLY系统默认 数据缓存到内存中MEMORY_AND_DISK优先存储在内存中,当不适合存储在内存中时,会启用磁盘存储MEMORY_ONLY_SER和MEMORY_ONLY都是存储在内存中,不同的MEMORY_ONLY_SER存储的是java 对象,MEMORY_ONLY存储的是反序列的对象MEMORY_AND_DI...

2019-05-21 12:15:07 186

原创 IDEA使用技巧 -- debug

打断点 / 取消断点Ctrl + F8查看所有断点Shift + Ctrl + F8禁止所有断点条件断点Ctrl + Shift + F8表达式求值Alt + F8运行到指定行Alt + F9setValueF2

2019-05-20 16:28:09 143

原创 RDD -- Actions算子

Actions算子Actions算子会触发spark任务提交。一般拍电影时导演都会喊Action,Action有开始之意,这类算子固有开始任务之意。reducecollectcountfirsttaketakeSampletakeOrderedsaveAsTextFilesaveAsSequenceFilesaveAsObjectFilecountByKeyforeach...

2019-05-17 17:32:55 265

原创 spark -- PCA

Spark PCA在机器学习或者数据挖掘中,得到的数据往往维度过高,含有噪音,需要把多指标转化为少数几个综合指标的数据。pca是机器学习框架中常用的一个功能,spark机器模块也实现了这一功能。PCA主要的几个方法设置输入项的字段def setInputCol(value: String): this.type = set(inputCol, value)设置输出项的字段def s...

2019-05-17 17:11:36 1168

原创 RDD -- Transformation算子分析

RDDRDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。对开发者而言,RDD可以看作是Spark的一个对象,它本身运行于内存中,如...

2019-05-15 17:33:20 629

原创 IDEA 使用技巧 -- 查看结构图

查看类的结构 (Ctrl + F12)查看类的路径(Ctrl + Alt + F12)查看类继承结构一:(Ctrl + Alt + Shift + U)eg: PriorityQueue查看类继承结构二:(Ctrl + H)查看方法调用关系(Ctrl + Alt + H)被调用方法调用其他方法...

2019-05-15 15:21:37 4345

原创 IDEA 使用技巧 -- 精确查找

精确查找类 (Ctrl + N)精确查找文件(Ctrl + Shift + N)精确查找方法名(Ctrl + Alt + Shift + N)精确查找字符串(Ctrl + Shift + F)

2019-05-15 14:24:58 3846

原创 IDEA 使用技巧 -- 插件emacsIDEAs

安装emacsIDEAs设置快捷键 搜索 Alt + k + l按键 a 就能跳转到 34 行

2019-05-15 13:00:12 2840

原创 IDEA 使用技巧 -- 收藏夹

收藏夹,在浏览源码时,遇到重要的或者写的很好的代码可以使用收藏夹功能将代码添加到收藏夹中收藏类 (Alt + Shift + F)收藏方法 (Alt + Shift + F)利用收藏夹跳转点击收藏夹中收藏项,就能跳转到目标代码。...

2019-05-15 12:37:28 691

原创 IDEA 使用技巧 -- 标签

在源码上打标签 (F11), 取消再次按 F11打带标记的标签标签间跳转 (Shift + F11)

2019-05-15 11:28:41 1421 1

原创 IDEA 使用技巧 -- 跳转

项目之间的跳转(Ctrl + Alt + ] / Ctrl + Alt + [ )命令 / 类 查找(Ctrl + Shift + A)跳转到最近查看的文件(Ctrl + E)跳转到最近修改的文件(Ctrl + E)在最近修改处跳转(Ctrl + Shift + Backspace)...

2019-05-15 11:14:12 1184

原创 IDEA使用技巧 -- 界面菜单介绍

IDEA 是一个强大的编译工具不仅仅使用于 java 开发,还对其他语言开发有很好的支持。其提供了强大的菜单功能,方便快速完成代码的编写和调试。对于其菜单的认识是用好这个工具的第一步。...

2019-05-15 10:16:05 2546

原创 IDEA 使用技巧 -- 与git集成 Annotate使用

在接手或查看别人代码时,不知道某行代码意思,需要向人求助,但有好几个人写了这个系统,如何快速找到这行代码的作者。git 就有用武之地了。Annotate (通过git注解找到作者)step 1: 选择某一行step 2: 快捷键 (在行号区域右击弹出选择框)step 3: 点击Annotate 弹出版本提交信息(鼠标放到上面 显示作者和时间)...

2019-05-14 17:26:47 5470 4

原创 IDEA 使用技巧 -- 方法抽取

在程序中遇到一个方法中代码过长,业务过多。方法抽取就有了用武之地。将代码抽取成多个方法。便于阅读。方法抽取step 1: 选中被抽取部分step 2: 快捷键/菜单结果...

2019-05-14 16:49:57 527

原创 IDEA 使用技巧 -- 抽取变量

抽取普通变量step 1: 选中字符串step 2: 快捷键/菜单step 3: 新建变量抽取静态变量快捷键结果

2019-05-14 16:34:37 11648 2

原创 IDEA 使用技巧 -- 变量重命名

变量重构step 1 :选中变量step 2 : Shift + F6 重命名选中step 3 : 重命名 + Enter键

2019-05-14 16:10:59 2052

原创 论大数据+人工智能时代下的犯罪及防御

引言随着科技不断地发展,我们生活越来越好,让我们的生活越来越具有很大的便利性。但是科技的发展带来的不仅仅是便利,人性千古不变。犯罪也会科技不断地发展。特别是在大数据+人工智能的时代。犯罪必然会朝向大数据+人工智能的方向发展。诈骗趋于智能化收集数据收集诈骗者信息,通过木马病毒、填写的XX调研、应用软件后门、爬虫、地下黑市买来的数据 …,经过大数据手段清洗成训练数据集。训练通过训练数据集训...

2019-05-13 22:49:46 702

原创 sklearn -- PCA

PCAPCA(principal components analysis)即主成分分析技术,又称主分量分析。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在统计学中,主成分分析PCA是一种简化数据集的技术。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上...

2019-05-13 17:40:48 496

原创 安装虚拟机

VMware下载与安装VMware从官网或应用商店下载,安装就和安装普通软件一样步骤。centosCentOS(Community Enterprise Operating System,中文意思是社区企业操作系统)是Linux发行版之一,它是来自于Red Hat Enterprise Linux依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定性的服务器以...

2019-05-13 11:02:49 115

原创 数据结构 -- AVL树

AVL树在计算机科学中,AVL树是最先发明的自平衡二叉查找树。在AVL树中任何节点的两个子树的高度最大差别为1,所以它也被称为高度平衡树。增加和删除可能需要通过一次或多次树旋转来重新平衡这个树。AVL树得名于它的发明者G. M. Adelson-Velsky和E. M. Landis,他们在1962年的论文《An algorithm for the organization of informa...

2019-05-10 15:37:09 213

原创 rdd -- topK

需求对100万条在0~1000万之间的数据取 TopK输入数据:8995149,5191755,2093544,9816608,4360204,5507730,1289204,6166586,8955325,9567003,8264570,5202810,5353570,279129,9281133,6205171,5684360,1666876,4727056,2383250,9176...

2019-05-09 11:29:06 3792

原创 rdd -- 排序

需求对100万条在0~1000万之间的数据进行统计排序(按次数排序,按数据大小排序)输入数据:8995149,5191755,2093544,9816608,4360204,5507730,1289204,6166586,8955325,9567003,8264570,5202810,5353570,279129,9281133,6205171,5684360,1666876,472705...

2019-05-08 16:18:41 2756

原创 hadoop -- topk

需求对100万条在0~1000万之间的数据取 TopK输入数据:8995149,5191755,2093544,9816608,4360204,5507730,1289204,6166586,8955325,9567003,8264570,5202810,5353570,279129,9281133,6205171,5684360,1666876,4727056,2383250,9176...

2019-05-08 10:12:47 168

原创 hadoop -- 排序

需求对100万条在0~1000万之间的数据进行排序输入数据:8995149,5191755,2093544,9816608,4360204,5507730,1289204,6166586,8955325,9567003,8264570,5202810,5353570,279129,9281133,6205171,5684360,1666876,4727056,2383250,917628...

2019-05-07 16:32:37 280

原创 spark -- 线性回归

Apache Spark MLMLlib是Spark的机器学习(ML)库。其目标是使实用的机器学习可扩展且简单。从较高的层面来说,它提供了以下工具:ML算法:常见的学习算法,如分类,回归,聚类和协同过滤特征化:特征提取,转换,降维和选择管道:用于构建,评估和调整ML管道的工具持久性:保存和加载算法,模型和管道实用程序:线性代数,统计,数据处理等。线性回归在统计学中,线性回归(Lin...

2019-05-05 16:01:31 1338

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除