- 博客(19)
- 资源 (3)
- 收藏
- 关注
原创 遇到的check the manual that corresponds to your MySQL server version for the right syntax错误
遇到这种问题,十有八九是 创建的表名中某些字段包含了mysql的关键字,或者插入的值中出现了某些关键字。
2013-07-29 16:33:02 906
原创 java BingInteger生成2进制String循环移位时长度自动缩减
最近在做文本处理,使用MD5 生成一段文字的MD5哈希长度为32位也即128位。 由于需要对这个MD5值进行循环移位,显然普通的 int 是不行的,所以使用 BigInteger。但是在使用BigInteger进行移位的过程,生成的0-1 序列长度 莫名其妙的减少。如图:部分代码如下:package LCS;import java.math.BigInteger
2013-07-27 15:20:44 1430
原创 java的HashMap和ArrayList比较器
如何对ArrayList中对象按照该对象某属性排序public static void display (Collection c){ Iterator it = c.iterator (); while (it.hasNext()){ Object o = it.next(); System.out.println(o); } } public static v
2013-07-26 10:33:07 1167
原创 网页内容选取方法
本文引用一篇论文:http://sewm.pku.edu.cn/TianwangLiterature/Report/NCIS_TR_2007012.pdf 一种基于 LCS 的相似网页检测算法 前提:1. 网页中的噪音信息例如广告、版权信息等通常都出现在网页正文内容的头尾两端。我们需要获取中间文本等有用内容。 2. 计算 LCS并提取出的它的
2013-07-25 16:24:23 976
原创 不用Map高效更新数据对应关系
在处理数据的时候碰到一种情况: 1.两条数据之间必须保持对应关系 2. 尽量不使用map类型 比如:ArrayList douList 和 ArrayList strList之间必须保持对应关系,douList和strList来自同一条记录两个部分。但是我们不断的往douList中添加数据的时候要同时只保留最靠前的10条记录(假设是最大的10条记录),
2013-07-20 18:08:37 983
转载 计算字符串相似度算法——Levenshtein
http://wdhdmx.iteye.com/blog/1343856Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。
2013-07-19 17:46:44 1456
转载 Lucene的查询语句
Lucene的Query转自:http://www.blogjava.net/persister/archive/2009/06/08/280567.htmlLucene基本的查询语句: Searcher searcher = new IndexSearcher(dbpath); Query query = QueryParser.parse(searchkey, sear
2013-07-19 09:25:50 1500 1
原创 Bloom Filter算法
一个布隆过滤器由以下几个部分组成 (1)n个位组成的数组,每个位初始值都是0 (2)一系列哈希哈书h1,h2,h3.....hk组成的集合。每个哈希函数将“键”值映射到上述n个桶(对应于位数组的n个位)中。 (3)m个键值组成的集合S。布隆过滤器的目的是让所有键值在S中的流元素通过,而阻挡大部分键值不再S中的流元素,哈希函数hi及S中的键值K,将每个hi(K)对应的位置
2013-07-18 20:33:34 1201
转载 Lucene多字段和多目录索引
http://kb.cnblogs.com/page/52644/1、多字段搜索就是同时要一个以上的字段中的内容进行比较搜索,类似概念在SQL中就是select * from Table where a like '%query%' or b like '%query%'。Lucene.net中的单个字段查询大家都比较熟悉,这里对字段content进行搜索Query q
2013-07-18 17:18:50 1447
转载 mysql 批量查询、批量插入优化
转自:http://www.adintellig.com/blog/227by Qingdou这段时间一直在参与产品库的设计和实现,中间和mysql的恩恩怨怨给广大喜欢交流学习的网友们,提供一些借鉴的机会。首先从mysql的批量插入开始吧。1.mysql批量插入优化。一直自认为对sql语句的数量使用,完全绝对的低估了现实问题的难度。100w的产品基础数据插入用掉
2013-07-18 10:09:54 3660
原创 大文本相似度比较
这个月一直在做文本匹配研究,大到一篇文章,现在小到一个字段。处于自由散漫的探索,而且时间较短,所以可能较为肤浅,感兴趣的可以一起交流。 1.查找一篇重复文本。前一段时间做过测试,Google的SimHash算法效果还是不错的,文本长度与一篇论文长度差不多。 步骤为: a. 给整篇文档分词 term ,分词用的是IKAnalyzer。 b.计算每个分词term
2013-07-17 18:19:30 1277
转载 Lucene评分机制
原文来自:http://www.blogjava.net/ashutc/archive/2011/04/15/348339.html感觉写分比较细致。就转来留着在IndexSearcher类中有一个管理Lucene得分情况的方法,如下所示:public Explanation explain(Weight weight, int doc) throws IOExceptio
2013-07-17 17:55:22 887
转载 java 如何处理大数据---技巧
众所周知,java在处理数据量比较大的时候,加载到内存必然会导致内存溢出,而在一些数据处理中我们不得不去处理海量数据,在做数据处理中,我们常见的手段是分解,压缩,并行,临时文件等方法;例如,我们要将数据库(不论是什么数据库)的数据导出到一个文件,一般是Excel或文本格式的CSV;对于Excel来讲,对于POI和JXL的接口,你很多时候没有办法去控制内存什么时候向磁盘写入,很恶
2013-07-17 16:06:52 1551
转载 MySQL: 如何选取Table中的50到100行
使用查询语句的时候,经常要返回前几条或者中间某几行数据,这个时候怎么办呢?不用担心,MySql已 经为我们提供了这样一个功能。[sql] view plaincopySELECT * FROM table LIMIT [offset,] rows | rows OFFSET offset LIMIT 子句可以被用于强
2013-07-17 11:05:24 1546
转载 mysql中判断记录是否存在方法比较
mysql中判断记录是否存在方法比较http://www.jb51.net/article/27766.htm把数据写入到数据库的时,常常会碰到先要检测要插入的记录是否存在,然后决定是否要写入。我这里总结了判断记录是否存在的常用方法: sql语句:select count(*) from tablename;
2013-07-12 15:53:14 1538
转载 JDBC批处理的三种方式
http://zhoujingxian.iteye.com/blog/753523 SQL批处理是JDBC性能优化的重要武器,经本人研究总结,批处理的用法有三种。 package lavasoft.jdbctest; import lavasoft.common.DBToolkit; import java.sql.Connection;
2013-07-12 11:22:51 928
转载 Ubuntu下hadoop部署
原文转载自: http://www.cnblogs.com/tippoint/archive/2012/10/23/2735532.html (部分地方做了修改) 前面均在windows下进行,但是在安装hadoop过程中出了一些问题,先暂时切换到linux下,回头再补充windows下的安装。不过通过对比确实发现,在linux下的安装配置确实比较简单。一.安装ubun
2013-07-11 20:56:02 1051
转载 mysql中文字符乱码
MySQL会出现中文乱码的原因不外乎下列几点:1.server本身设定问题,例如还停留在latin12.table的语系设定问题(包含character与collation)3.客户端程式(例如php)的连线语系设定问题强烈建议使用utf8!!!!utf8可以兼容世界上所有字符!!!!一、避免创建数据库及表出现中文乱码和查看编码方法1、创建数据库的时候:CREATE D
2013-07-11 09:55:35 935
原创 java 过滤文本特殊字符 以及单斜杠替换成双斜杠
在读取mysql数据库时,数据库中的文件路径是由于其中包含单斜杠,我们在写入到另外的表中时,总是被莫名其妙的截断。即使将该字段的类型设置成longtext 都不行于是,我们在读取之后使用如下方法。用双斜杠替换字符串中的单斜杠,这样才能正确写入到数据库String f=file.replaceAll("\\\\", "\\\\\\\\");
2013-07-11 09:25:53 4334
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人