自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 资源 (3)
  • 收藏
  • 关注

原创 遇到的check the manual that corresponds to your MySQL server version for the right syntax错误

遇到这种问题,十有八九是 创建的表名中某些字段包含了mysql的关键字,或者插入的值中出现了某些关键字。

2013-07-29 16:33:02 906

原创 java BingInteger生成2进制String循环移位时长度自动缩减

最近在做文本处理,使用MD5 生成一段文字的MD5哈希长度为32位也即128位。  由于需要对这个MD5值进行循环移位,显然普通的  int 是不行的,所以使用 BigInteger。但是在使用BigInteger进行移位的过程,生成的0-1 序列长度 莫名其妙的减少。如图:部分代码如下:package LCS;import java.math.BigInteger

2013-07-27 15:20:44 1430

原创 java的HashMap和ArrayList比较器

如何对ArrayList中对象按照该对象某属性排序public static void display (Collection c){ Iterator it = c.iterator (); while (it.hasNext()){ Object o = it.next(); System.out.println(o); } } public static v

2013-07-26 10:33:07 1167

原创 网页内容选取方法

本文引用一篇论文:http://sewm.pku.edu.cn/TianwangLiterature/Report/NCIS_TR_2007012.pdf      一种基于 LCS 的相似网页检测算法   前提:1. 网页中的噪音信息例如广告、版权信息等通常都出现在网页正文内容的头尾两端。我们需要获取中间文本等有用内容。               2.  计算 LCS并提取出的它的

2013-07-25 16:24:23 976

原创 不用Map高效更新数据对应关系

在处理数据的时候碰到一种情况:      1.两条数据之间必须保持对应关系      2. 尽量不使用map类型   比如:ArrayList  douList   和  ArrayList  strList之间必须保持对应关系,douList和strList来自同一条记录两个部分。但是我们不断的往douList中添加数据的时候要同时只保留最靠前的10条记录(假设是最大的10条记录),

2013-07-20 18:08:37 983

转载 计算字符串相似度算法——Levenshtein

http://wdhdmx.iteye.com/blog/1343856Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。

2013-07-19 17:46:44 1456

转载 Lucene的查询语句

Lucene的Query转自:http://www.blogjava.net/persister/archive/2009/06/08/280567.htmlLucene基本的查询语句: Searcher searcher = new IndexSearcher(dbpath); Query query = QueryParser.parse(searchkey, sear

2013-07-19 09:25:50 1500 1

原创 Bloom Filter算法

一个布隆过滤器由以下几个部分组成   (1)n个位组成的数组,每个位初始值都是0  (2)一系列哈希哈书h1,h2,h3.....hk组成的集合。每个哈希函数将“键”值映射到上述n个桶(对应于位数组的n个位)中。    (3)m个键值组成的集合S。布隆过滤器的目的是让所有键值在S中的流元素通过,而阻挡大部分键值不再S中的流元素,哈希函数hi及S中的键值K,将每个hi(K)对应的位置

2013-07-18 20:33:34 1201

转载 Lucene多字段和多目录索引

http://kb.cnblogs.com/page/52644/1、多字段搜索就是同时要一个以上的字段中的内容进行比较搜索,类似概念在SQL中就是select * from Table where a like '%query%' or b like '%query%'。Lucene.net中的单个字段查询大家都比较熟悉,这里对字段content进行搜索Query q

2013-07-18 17:18:50 1447

转载 mysql 批量查询、批量插入优化

转自:http://www.adintellig.com/blog/227by Qingdou这段时间一直在参与产品库的设计和实现,中间和mysql的恩恩怨怨给广大喜欢交流学习的网友们,提供一些借鉴的机会。首先从mysql的批量插入开始吧。1.mysql批量插入优化。一直自认为对sql语句的数量使用,完全绝对的低估了现实问题的难度。100w的产品基础数据插入用掉

2013-07-18 10:09:54 3660

原创 大文本相似度比较

这个月一直在做文本匹配研究,大到一篇文章,现在小到一个字段。处于自由散漫的探索,而且时间较短,所以可能较为肤浅,感兴趣的可以一起交流。   1.查找一篇重复文本。前一段时间做过测试,Google的SimHash算法效果还是不错的,文本长度与一篇论文长度差不多。  步骤为: a. 给整篇文档分词 term ,分词用的是IKAnalyzer。            b.计算每个分词term

2013-07-17 18:19:30 1277

转载 Lucene评分机制

原文来自:http://www.blogjava.net/ashutc/archive/2011/04/15/348339.html感觉写分比较细致。就转来留着在IndexSearcher类中有一个管理Lucene得分情况的方法,如下所示:public Explanation explain(Weight weight, int doc) throws IOExceptio

2013-07-17 17:55:22 887

转载 java 如何处理大数据---技巧

众所周知,java在处理数据量比较大的时候,加载到内存必然会导致内存溢出,而在一些数据处理中我们不得不去处理海量数据,在做数据处理中,我们常见的手段是分解,压缩,并行,临时文件等方法;例如,我们要将数据库(不论是什么数据库)的数据导出到一个文件,一般是Excel或文本格式的CSV;对于Excel来讲,对于POI和JXL的接口,你很多时候没有办法去控制内存什么时候向磁盘写入,很恶

2013-07-17 16:06:52 1551

转载 MySQL: 如何选取Table中的50到100行

使用查询语句的时候,经常要返回前几条或者中间某几行数据,这个时候怎么办呢?不用担心,MySql已 经为我们提供了这样一个功能。[sql] view plaincopySELECT * FROM table   LIMIT [offset,] rows | rows OFFSET offset  LIMIT 子句可以被用于强

2013-07-17 11:05:24 1546

转载 mysql中判断记录是否存在方法比较

mysql中判断记录是否存在方法比较http://www.jb51.net/article/27766.htm把数据写入到数据库的时,常常会碰到先要检测要插入的记录是否存在,然后决定是否要写入。我这里总结了判断记录是否存在的常用方法: sql语句:select count(*) from tablename; 

2013-07-12 15:53:14 1538

转载 JDBC批处理的三种方式

http://zhoujingxian.iteye.com/blog/753523 SQL批处理是JDBC性能优化的重要武器,经本人研究总结,批处理的用法有三种。 package lavasoft.jdbctest; import lavasoft.common.DBToolkit; import java.sql.Connection;

2013-07-12 11:22:51 928

转载 Ubuntu下hadoop部署

原文转载自:   http://www.cnblogs.com/tippoint/archive/2012/10/23/2735532.html   (部分地方做了修改) 前面均在windows下进行,但是在安装hadoop过程中出了一些问题,先暂时切换到linux下,回头再补充windows下的安装。不过通过对比确实发现,在linux下的安装配置确实比较简单。一.安装ubun

2013-07-11 20:56:02 1051

转载 mysql中文字符乱码

MySQL会出现中文乱码的原因不外乎下列几点:1.server本身设定问题,例如还停留在latin12.table的语系设定问题(包含character与collation)3.客户端程式(例如php)的连线语系设定问题强烈建议使用utf8!!!!utf8可以兼容世界上所有字符!!!!一、避免创建数据库及表出现中文乱码和查看编码方法1、创建数据库的时候:CREATE D

2013-07-11 09:55:35 935

原创 java 过滤文本特殊字符 以及单斜杠替换成双斜杠

在读取mysql数据库时,数据库中的文件路径是由于其中包含单斜杠,我们在写入到另外的表中时,总是被莫名其妙的截断。即使将该字段的类型设置成longtext 都不行于是,我们在读取之后使用如下方法。用双斜杠替换字符串中的单斜杠,这样才能正确写入到数据库String f=file.replaceAll("\\\\", "\\\\\\\\");

2013-07-11 09:25:53 4334

hadoop-2.5.2 和eclipse插件

hadoop eclipse插件

2015-10-22

文本相似度论文和网页查重

各种文本相似度论文,包含网页查重的论文。

2013-07-30

兼容lucene 3.5的paoding包

原本由 好山西人才在线 分享。自己亲身实验成功,不用SVN和ant

2013-06-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除