2013年07月_春夏秋冬又一年

原创遇到的check the manual that corresponds to your MySQL server version for the right syntax错误

遇到这种问题，十有八九是创建的表名中某些字段包含了mysql的关键字，或者插入的值中出现了某些关键字。

2013-07-29 16:33:02 906

原创 java BingInteger生成2进制String循环移位时长度自动缩减

最近在做文本处理，使用MD5 生成一段文字的MD5哈希长度为32位也即128位。由于需要对这个MD5值进行循环移位，显然普通的 int 是不行的，所以使用 BigInteger。但是在使用BigInteger进行移位的过程，生成的0-1 序列长度莫名其妙的减少。如图：部分代码如下：package LCS;import java.math.BigInteger

2013-07-27 15:20:44 1430

原创 java的HashMap和ArrayList比较器

如何对ArrayList中对象按照该对象某属性排序public static void display (Collection c){ Iterator it = c.iterator (); while (it.hasNext()){ Object o = it.next(); System.out.println(o); } } public static v

2013-07-26 10:33:07 1167

原创网页内容选取方法

本文引用一篇论文：http://sewm.pku.edu.cn/TianwangLiterature/Report/NCIS_TR_2007012.pdf 一种基于 LCS 的相似网页检测算法前提：1. 网页中的噪音信息例如广告、版权信息等通常都出现在网页正文内容的头尾两端。我们需要获取中间文本等有用内容。 2. 计算 LCS并提取出的它的

2013-07-25 16:24:23 976

原创不用Map高效更新数据对应关系

在处理数据的时候碰到一种情况： 1.两条数据之间必须保持对应关系 2. 尽量不使用map类型比如：ArrayList douList 和 ArrayList strList之间必须保持对应关系，douList和strList来自同一条记录两个部分。但是我们不断的往douList中添加数据的时候要同时只保留最靠前的10条记录（假设是最大的10条记录），

2013-07-20 18:08:37 983

转载计算字符串相似度算法——Levenshtein

http://wdhdmx.iteye.com/blog/1343856Levenshtein 距离，又称编辑距离，指的是两个字符串之间，由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。编辑距离的算法是首先由俄国科学家Levenshtein提出的，故又叫Levenshtein Distance。

2013-07-19 17:46:44 1456

转载 Lucene的查询语句

Lucene的Query转自：http://www.blogjava.net/persister/archive/2009/06/08/280567.htmlLucene基本的查询语句： Searcher searcher = new IndexSearcher(dbpath); Query query = QueryParser.parse(searchkey, sear

2013-07-19 09:25:50 1500 1

原创 Bloom Filter算法

一个布隆过滤器由以下几个部分组成（1）n个位组成的数组，每个位初始值都是0 （2）一系列哈希哈书h1,h2,h3.....hk组成的集合。每个哈希函数将“键”值映射到上述n个桶（对应于位数组的n个位）中。（3）m个键值组成的集合S。布隆过滤器的目的是让所有键值在S中的流元素通过，而阻挡大部分键值不再S中的流元素，哈希函数hi及S中的键值K，将每个hi(K)对应的位置

2013-07-18 20:33:34 1201

转载 Lucene多字段和多目录索引

http://kb.cnblogs.com/page/52644/1、多字段搜索就是同时要一个以上的字段中的内容进行比较搜索，类似概念在SQL中就是select * from Table where a like '%query%' or b like '%query%'。Lucene.net中的单个字段查询大家都比较熟悉，这里对字段content进行搜索Query q

2013-07-18 17:18:50 1447

转载 mysql 批量查询、批量插入优化

转自：http://www.adintellig.com/blog/227by Qingdou这段时间一直在参与产品库的设计和实现，中间和mysql的恩恩怨怨给广大喜欢交流学习的网友们，提供一些借鉴的机会。首先从mysql的批量插入开始吧。1.mysql批量插入优化。一直自认为对sql语句的数量使用，完全绝对的低估了现实问题的难度。100w的产品基础数据插入用掉

2013-07-18 10:09:54 3660

原创大文本相似度比较

这个月一直在做文本匹配研究，大到一篇文章，现在小到一个字段。处于自由散漫的探索，而且时间较短，所以可能较为肤浅，感兴趣的可以一起交流。 1.查找一篇重复文本。前一段时间做过测试，Google的SimHash算法效果还是不错的，文本长度与一篇论文长度差不多。步骤为： a. 给整篇文档分词 term ，分词用的是IKAnalyzer。 b.计算每个分词term

2013-07-17 18:19:30 1277

转载 Lucene评分机制

原文来自：http://www.blogjava.net/ashutc/archive/2011/04/15/348339.html感觉写分比较细致。就转来留着在IndexSearcher类中有一个管理Lucene得分情况的方法，如下所示：public Explanation explain(Weight weight, int doc) throws IOExceptio

2013-07-17 17:55:22 887

转载 java 如何处理大数据---技巧

众所周知，java在处理数据量比较大的时候，加载到内存必然会导致内存溢出，而在一些数据处理中我们不得不去处理海量数据，在做数据处理中，我们常见的手段是分解，压缩，并行，临时文件等方法；例如，我们要将数据库（不论是什么数据库）的数据导出到一个文件，一般是Excel或文本格式的CSV；对于Excel来讲，对于POI和JXL的接口，你很多时候没有办法去控制内存什么时候向磁盘写入，很恶

2013-07-17 16:06:52 1551

转载 MySQL: 如何选取Table中的50到100行

使用查询语句的时候，经常要返回前几条或者中间某几行数据，这个时候怎么办呢？不用担心，MySql已经为我们提供了这样一个功能。[sql] view plaincopySELECT * FROM table LIMIT [offset,] rows | rows OFFSET offset LIMIT 子句可以被用于强

2013-07-17 11:05:24 1546

转载 mysql中判断记录是否存在方法比较

mysql中判断记录是否存在方法比较http://www.jb51.net/article/27766.htm把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。我这里总结了判断记录是否存在的常用方法： sql语句：select count(*) from tablename;

2013-07-12 15:53:14 1538

转载 JDBC批处理的三种方式

http://zhoujingxian.iteye.com/blog/753523 SQL批处理是JDBC性能优化的重要武器，经本人研究总结，批处理的用法有三种。 package lavasoft.jdbctest; import lavasoft.common.DBToolkit; import java.sql.Connection;

2013-07-12 11:22:51 928

转载 Ubuntu下hadoop部署

原文转载自： http://www.cnblogs.com/tippoint/archive/2012/10/23/2735532.html （部分地方做了修改）前面均在windows下进行，但是在安装hadoop过程中出了一些问题，先暂时切换到linux下，回头再补充windows下的安装。不过通过对比确实发现，在linux下的安装配置确实比较简单。一.安装ubun

2013-07-11 20:56:02 1051

转载 mysql中文字符乱码

MySQL会出现中文乱码的原因不外乎下列几点：1.server本身设定问题，例如还停留在latin12.table的语系设定问题(包含character与collation)3.客户端程式(例如php)的连线语系设定问题强烈建议使用utf8!!!!utf8可以兼容世界上所有字符!!!!一、避免创建数据库及表出现中文乱码和查看编码方法1、创建数据库的时候：CREATE D

2013-07-11 09:55:35 935

原创 java 过滤文本特殊字符以及单斜杠替换成双斜杠

在读取mysql数据库时，数据库中的文件路径是由于其中包含单斜杠，我们在写入到另外的表中时，总是被莫名其妙的截断。即使将该字段的类型设置成longtext 都不行于是，我们在读取之后使用如下方法。用双斜杠替换字符串中的单斜杠，这样才能正确写入到数据库String f=file.replaceAll("\\\\", "\\\\\\\\");

2013-07-11 09:25:53 4334

风起于青萍之末，折秀于林