- 博客(22)
- 资源 (5)
- 收藏
- 关注
转载 相似度算法——Levenshtein(编辑距离)
Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。 许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。 编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。 2.用途 模糊查询 3. 代码实现package code; /** * @classN
2018-01-03 17:45:37 17202 1
转载 java Apache Commons Mail 使用记录
Apache commons mail 是对java自带的 javax.mail 模块的封装步骤如下: 1.Maven依赖<dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-email</artifactId> <version>1.3.3</version> </de
2017-10-18 19:54:23 906
转载 java处理url中的特殊字符%等
1. URL(Uniform Resoure Locator,统一资源定位器)是Internet中对资源进行统一定位和管理的标志。一个完整的URL包括如下内容:1. 应用协议名称,包括http,ftp,file等标志2. 资源定位,是由(.)分割等网络路径3. 端口号,按照规定,http应用端口是80,telnet协议应用端口是23。4. 服务器中的文件路径5. 文件中的编码位置一个完整的
2017-10-18 19:37:17 7530 1
原创 map 遍历的四种方法
map 遍历的四种方法 import java.util.HashMap; import java.util.Iterator; import java.util.Map; public class TestMap { public static void main(String[] args) { Map map = new HashMap();
2017-10-11 20:53:14 258
转载 java集合中对象某属性比较排序Comparable与Comparator
要对集合中的对象的某属性进行排序有两种方式。 a. 一种是要排序对象类实现comparable接口的compareTo方法;然后把对象放入list;然后调用Collections.sort(list); b. 一种是不对要排序对象类做任何改动,创建Comparator接口的实现类C;然后 把对象放入list;然后调用Collections.sort(list, C);在对象中定义排序pu
2017-10-11 20:50:44 485
转载 Java中 map.values转换为list或者string[]
map 中values 返回列表,可以将器转化为list@Testpublic void testMap2List() throws Exception{ Map<String, String> map = new HashMap<String, String>(); map.put("1", "AA"); map.put("2", "BB"); map.put("
2017-10-11 20:45:12 33888
翻译 JDBC中通过MetaData来获取具体的表的相关信息
MetaDataJDBC中通过MetaData来获取具体的表的相关信息。可以查询数据库中的有哪些表,表有哪些字段,字段的属性等等。MetaData中通过一系列getXXX函数,将这些信息存放到ResultSet里面,然后返回给用户。DatabaseMetaData dm= con.getMetaData(); rs = dm.getColumns(con.getCatalog(), schema,
2017-07-29 21:50:24 9685 1
翻译 jdbc操作mysql数据库_接口简介
JDBC常用类和接口DriverManager类 DriverManager类用来管理数据库中的所有驱动程序;是JDBC的管理层,作用于用户和驱动程序之间,跟踪可用的驱动程序,并在数据库的驱动程序之间建立连接。 此外,DriverManager类也处理诸如驱动程序登录时间限制及登录和跟踪信息的显示等事务。DriverManager类中的方法都是静态方法,所以在程序中无须对它进行实例化,直接通过类名
2017-07-29 10:48:31 535
转载 java 快速排序
思想快速排序采用的思想是分治思想。快速排序是找出一个元素(理论上可以随便找一个)作为基准(pivot),然后对数组进行分区操作,使基准左边元素的值都不大于基准值,基准右边的元素值 都不小于基准值,如此作为基准的元素调整到排序后的正确位置。递归快速排序,将其他n-1个元素也调整到排序后的正确位置。最后每个元素都是在排序后的正 确位置,排序完成。所以快速排序算法的核心算法是分区操作,即如何调整基准的位置
2017-07-24 20:51:39 503
转载 HDFS的运行原理
简介HDFS 是一个能够面向大规模数据使用的,可进行扩展的文件存储与传递系统。是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。让实际上是通过网络来访问文件的动作,由程序与用户看来,就像是访问本地的磁盘一般。即使系统中有某些节点脱机,整体来说系统仍然可以持续运作而不会有数据损失HDFS体系架构如上图所示,HDFS也是按照Master和Slave的结构。分Nam
2017-07-24 20:17:12 403
翻译 Hive分析窗口函数
转载:http://lxw1234.com/archives/category/hive/page/4hive分析窗口函数Hive中提供了越来越多的分析函数,用于完成负责的统计分析本文涉及的函数汇总 操作 解释 SUM 求和函数,结果和ORDER BY相关,默认为升序 AVG 求平均数函数 MIN 求最小值 MAX 求最大值 NTILE 用于将分组数据
2017-07-19 12:42:57 1000
转载 CDH启用 sentry
CDH启用sentryCDH集群启用sentry步骤和测试。CDH启用sentryCDH中添加sentry服务后,按照Configuring the Sentry Service一步步进行来配置sentry服务。Before Enabling the Sentry Service设置 hive.metastore.warehouse.dir 配置项(默认路径是/user/hive/warehous
2017-07-18 17:06:42 3038 2
转载 java常用正则表达式
java 正则表达式 “^/d+$” //非负整数(正整数 + 0) “^[0-9][1-9][0-9]” //正整数 “((−/d+)|(0+))” //正整数 “^((-/d+)|(0+))” //非正整数(负整数 + 0) “^-[0-9][1-9][0-9]” //负整数 “−?/d+” //负整数 “^-?/d+” //整
2017-07-17 18:56:00 260
原创 spark快速大数据分析笔记_1
RDD 编程创建RDD方法 读取外部数据集 在驱动器程序里分发驱动器程序的对象集合(比如list和set) 转化操作: 会将一个RDD转化为另一个RDD 行动操作: 对RDD计算一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统中(hdfs中) 在行动操作中first()中,spark只需扫描文件知道找到第一个匹配的行动为止,而不需要读取整个文件。如果想
2017-07-16 22:39:03 306
转载 linux命令 —— jq
linux 常用命令 —— jq对于JSON格式而言,jq就像sed/awk/grep这些神器一样的方便,而也,jq没有乱七八糟的依赖,只需要一个binary文件jq,就足矣。 下面我们看下jq的使用格式化JSONroot@silent:~/code/php/json$ cat json_raw.txt {"name":"Google","location":{"street":"1600
2017-07-10 16:39:20 1351
转载 hive内部表和外部表
内部表和外部表的区别Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变在删除表的时候,内部表的元数据和数据会被一起删除, 而外部表只删除元数据,不删除数据
2017-07-07 18:32:23 348
转载 数据库分库分表(sharding)
一、基本思想Sharding的基本思想就要把一个数据库切分成多个部分放到不同的数据库(server)上,从而缓解单一数据库的性能问题。不太严格的讲,对于海量数据的数据库,如果是因为表多而数据多,这时候适合使用垂直切分,即把关系紧密(比如同一模块)的表切分出来放在一个server上。如果表并不多,但每张表的数据非常多,这时候适合水平切分,即把表的数据按某种规则(比如按ID散列)切分到多个数据库(ser
2017-07-04 23:09:50 409
原创 hadoop HA 详解
hadoop HA 详解1. NameNode 高可用整体架构概述在 Hadoop 1.0 时代,Hadoop 的两大核心组件 HDFS NameNode 和 JobTracker 都存在着单点问题,这其中以 NameNode 的单点问题尤为严重。因为 NameNode 保存了整个 HDFS 的元数据信息,一旦 NameNode 挂掉,整个 HDFS 就无法访问,同时 Hadoop 生态系统中依赖于
2017-07-02 17:11:12 671
转载 Hadoop-Yarn-框架原理及运作机制
一、YARN基本架构YARN是Hadoop 2.0中的资源管理系统,它的基本设计思想是将MRv1中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster负责单个应用程序的管理。二、YARN基本组成结构YA
2017-07-02 16:50:00 538
翻译 scala基础系列一
数组相关操作本小结要点若长度固定则使用Array,若变长数组则使用ArrayBuffer提供初始化时不要使用new用()来访问用for(elem <-array) 来遍历元素用for(elme <- array) …yield.. 来将原数组转型为新数组scala数组和Java数组互操作;用ArrayBuffer,使用scala.collection.JavaConversions中的转
2017-07-02 16:38:47 244
转载 spark 算子-转化操作
spark 算子系列1-转化操作本下小结将记录转化算操作的第一部分mapflatMapdistinctmap 函数将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。 输入分区与输出分区一对一,即,有多少个输入分区,就有多少个输出分区//读取HDFS文件到RDDscala > val data = sc.textFile("text.txt")data: org.a
2017-07-01 22:21:03 471
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人