自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 资源 (2)
  • 收藏
  • 关注

原创 [转]java正则表达式匹配标点符号

str = str.replaceAll("[\\pP‘’“”]", ""); Unicode 编码并不只是为某个字符简单定义了一个编码,而且还将其进行了归类。\pP 其中的小写 p 是 property 的意思,表示 Unicode 属性,用于 Unicode 正表达式的前缀。大写 P 表示 Unicode 字符集七个字符属性之一:标点字符。其他六个是L:字母;M:标记符号(一般不会单独...

2013-08-15 10:30:38 2060

原创 通过spring查询mysql的tinyint字段会读出boolean值的问题解决

解决方法,在访问的url上加上提交参数tinyInt1isBit,spring就不会把tinyint转成boolean类型了jdbc:mysql://localhost:3310/test?tinyInt1isBit=false 

2013-06-24 13:50:41 1039

原创 支持Solr4的IKTokenizerFactory

近日公司开始改造旧有的搜索系统,用到solr4,而且本人关注IK分词器比较多。发现IK 2012对TokenizerFactory不支持,缺乏这个支持的话,有很多自定义配置功能用不上。故开发此代码,兼容Solr4分词功能代码测试可用 附件附上对IK2012代码的二次编译jar包 IKTokenizerFactory package org.wltea.analy...

2012-12-26 00:59:22 263

原创 过年了~~!

工作忙了一大半,分析的结果不是很准。结果还是有偏差。继续努力,来年,一定会做得更好!!

2011-01-31 18:22:25 146

语义分析有感

弄了一段时间语义挖掘,发现是件比较痛苦的事情,需要多了解国外的做法,结合中国人说话习惯,做改进。国内的论文不太敢看,假数据太多,不敢恭维。应该说,我这种初手不宜看国内论文太多,易被误导。还是老样子吧,努力恶补被遗忘的知识,积累经验。语义分析,经验很重要。...

2011-01-14 01:10:27 257

原创 元旦前一天

手头上有很多事情要做,但是就是因为再过几个小时就下班了一点心思都放不进去了~~

2010-12-31 14:23:12 111

原创 MySQL存储引擎 OQGRAPH

The GRAPH engine is a computation engine for handling hierarchies (trees) and graphs (friend-of-a-friend, etc) cleanly through standard SQL. 转至:http://openquery.com/graph/doc 估计这个引擎,对大...

2010-11-18 11:39:16 253

原创 【转】中文分词入门之最大匹配法扩展

中文分词入门之最大匹配法扩展1  中文分词入门之最大匹配法扩展2 

2010-10-20 11:42:08 111

原创 [转]中文分词入门之最大匹配法

  中文分词在中文信息处理中是最最基础的,无论机器翻译亦或信息检索还是其他相关应用,如果涉及中文,都离不开中文分词,因此中文分词具有极高的地位。中文分词入门最简单应该是最大匹配法了,当年师兄布置给我的第一个学习任务就是实现最大匹配法的分词算法(正向、逆向)。记得当时对自己参考学习最有帮助的是北大詹卫东老师“中文信息处理基础”的课件和源程序,不过他实现的是mfc程序,词表存储在数据库里。自己...

2010-10-20 11:39:29 182

phpmyadmin管理多台mysql的方法(自用)

$i = 0;$host_list = array('localhost','192.168.1.xx');/* * First server */foreach($host_list as $i=>$host){$i++;/* Authentication type */$cfg['Servers'][$i]['auth_type'] = 'cookie...

2010-10-13 14:17:38 89

原创 [转]IBM 加入 OpenJDK 项目

转自:http://www.oschina.net/news/12395/ibm-join-openjdk-effort?from=rss      多年缺席后,IBM现在加入甲骨文为首的开源OpenJDK的项目。OpenJDK 是一个开源Java平台的参考实现。 如今 IBM 终于也加入了这个项目,这是原来Sun公司无法做的事。甲骨文正在帮助巩固其作为Java社区的领导地位。IBM公司新...

2010-10-12 09:52:59 133

原创 【转】修改phpMyAdmin使其能够管理多台远程MySQL服务器(自用)

[文章作者:张宴 本文版本:v1.2 最后修改:2007.07.09 转载请注明出处:http://blog.s135.com]需求背景:  phpMyAdmin是一款不错的MySQL在线管理工具,但phpMyAdmin的cookie登录方式只能输入MySQL数据库的用户名和密码,而想更改MySQL服务器地址和端口则须修改其配置文件config.default.php。当拥有多...

2010-10-11 12:23:21 174

原创 【转】字符编码详解——彻底理解掌握编码知识,“乱码”不复存在

 每一个程序员都不可避免的遇到字符编码的问题,特别是做Web开发的程序员,“乱码问题”一直是让人头疼的问题,也许您已经很少遇到“乱码”问题,然而,对解决乱码的方法的内在原理,您是否明白?本人作为一个程序员,在字符编码方面同样遇到不少问题,而且一直对各种编码懵懵懂懂、不清不楚;在工作中也曾经遇到一个很烦人的编码问题。这两天在网上收集了大量编码方面的资料,对字符编码算是理解的比较清楚了。下面把...

2010-09-20 15:15:44 242

原创 [转]字符编码笔记:ASCII,Unicode和UTF-8

今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料。结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步搞清楚。下面就是我的笔记,主要用来整理自己的思路。但是,我尽量试图写得通俗易懂,希望能对其他朋友有用。毕竟,字符编码是计算机技术的基石,想要熟练使用计算机,就必须懂得一点字符编码的知识。1. ASCII码我们知道,在计算机...

2010-09-20 15:08:44 92

原创 判断文件字符集的简单方法

/** * * ANSI:        无格式定义; * Unicode:       前两个字节为FFFE * Unicode big endian: 前两字节为FEFF  * UTF-8:        前两字节为EFBB * @param file * @return */ public static String g...

2010-09-17 15:17:33 298

很是困惑,如何有效快速地选取分类器的样例测试文档?

如题,大家有什么好的高见,欢迎留言~~

2010-09-15 17:38:25 89

原创 小工具--dos下批量生成文件

@echo offfor /l %%i in (1,1,24) do cd.> D:\样例文档\%%i.txtcmd 简单生成一堆空文档!

2010-09-15 10:32:02 370

原创 【转】数据库中乐观锁与悲观锁的概念

前些日子在程序中用到select ... for update的语句,但是发觉,着语句用着就是不爽。感觉整个程序有点慢。郁闷之中,就找了点大学时候的概念好好恶补恶补。====================================================数据库中乐观锁与悲观锁的概念 锁( locking )业务逻辑的实现过程中,往往需要保证数据访问的排他性。如在...

2010-09-14 14:28:05 84

网页消重算法(java)

      在爬虫的过程中,我们常常会遇到主题内容相同的网页,例如转载网页等等。由于标题不一样,内容有细微的偏差,也许我们的爬虫会误认为两个网页是不同的。这个时候,我们就必须对网页内容过滤消重。几乎所有的消重技术都基于这样一个基本思想:为每个文档计算出一组指纹(fingerprint),若两个文档拥有一定数量的相同指纹,则认为这两个文档的内容重叠性较高,也即二者是内容转载的。(具体详细内容在搜  ...

2010-09-03 02:01:41 287

原创 【转】从HTML文件中抽取正文的简单方案

原文转载自http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx根据上面所说,我写了一个页面降噪的测试类,确实有效,不过对于不同网页,可能结果有偏差,特别网页文字比较少的,例如图片于文字混合的主题正文页面,等等。package com.test.net;import java.io.BufferedReader;...

2010-08-25 14:36:45 87

原创 文档相似度计算

最近在做爬虫时的一点点心德,记录下来。文档相似度计算,一般常用的就是余弦定理,代表性介绍的文章有:google黑板报的数学之美系列十二 -- 余弦定理和新闻的分类(这个是网上的一遍原文转载,google的黑板报被河蟹了) 把文档量化然后通过余弦定理计算相似度,主要适用于爬虫的聚类统计,和文档分类,是一种比较简单的分类算法: /** * 计算文档相似度 ...

2010-08-23 00:46:39 520

持久化list

简单的做了持久化list的操作,方便网络传输数据,待时日可扩展为持久化队列系统或nosql数据库。为自主开发的的nosql作准备,以此为记:package com.test.list;import java.io.ByteArrayInputStream;import java.io.ByteArrayOutputStream;import java.io.FileNotFou...

2010-08-16 17:02:23 443

原创 合并排序

合并排序属于稳定排序的一种,也是一种外部排序。一般用户文件排序,空间复杂度为O(n)package algorithms;/** * 合并排序 * @author heng * @date 2010-6-26 */public class MergeSort { public static void main(String[] args) { int[...

2010-06-27 13:31:47 92

原创 【转】算法的时间复杂度(计算实例)

算法的时间复杂度2007年12月02日 星期日 01:17定义:如果一个问题的规模是n,解这一问题的某一算法所需要的时间为T(n),它是n的某一函数 T(n)称为这一算法的“时间复杂性”。当输入量n逐渐加大时,时间复杂性的极限情形称为算法的“渐近时间复杂性”。我们常用大O表示法表示时间复杂性,注意它是某一个算法的时间复杂性。大O表示只是说有上界,由定义如果f(n...

2010-06-04 18:37:18 158

原创 每个晚上都在整!!

广州到现在还是一个大工地,每个晚上都在整,嘈得没办法睡觉~~可恶,这样下去怎么搞亚运! (javaeye写好的东西能不能不发布出去~)

2010-06-04 10:10:04 80

睡不着写算法(二)

循环链表package algorithms;/** * 链表 * @author henry * @date 2010-06-04 1:06:22 */public class MyLinkedList { private static MyNode myNode; private static int size = 0; public My...

2010-06-04 01:01:40 76

睡不着写算法(一)

二分查找,和快排。过几天比较下快排和插入排序,两个的效率。package algorithms;/** * 快排,递归二分查找 * @author henry * @date 2010-06-04 1:04:10 */public class RbSearch { public static int[] a = { 11, 22, 44, 5, 0, 3,...

2010-06-04 00:59:58 79

原创 代码日记--lucene3.0.1

/** * Returns a DocIdSet with documents that should be * permitted in search results. */ @Override public DocIdSet getDocIdSet(IndexReader reader) throws IOException { final Ter...

2010-05-14 17:40:46 86

优先队列--Java

优先队列的java实现注:当时写好之后忘了检查,这个优先队列有点缺陷~~~嘻嘻,不过我在工作环境中已经作了修改package test;import java.util.Comparator;/** * @作用:优先队列 * @author henry * @date 2010-4-30 */public class PriQueue<E> ...

2010-04-30 15:51:57 87

Cassandra

A highly scalable, eventually consistent, distributed, structured key-value store. http://incubator.apache.org/cassandra/Data Presentations Cassandra Sigmod

2010-04-30 10:50:49 64

Mysql连接超时解决办法(mysql-jdbc)

mysql的超时后,其实不用修改mysql的配置。那样做其实会使mysql存在很大的安全问题。mysql-jdbc有个很好的解决办法,如果出现连接超时,可以判断后自动重连/** * 判断连接是否有效 * @param conn * @return boolean */ private boolean checkConnection(Connection conn...

2010-04-21 14:35:10 706

openfire,flash连接失败修改~测试通过

新的flash播放器加入了跨域名访问安全机制。在跨域名访问时,flash播放器会发送一条信息:<policy-file-request/>必须要接受一条xml策略信息才能通过验证。 要flash播放器通过安全验证可以在ConnectionManager中的ConnectionHandler类加入如下代码if(xmlpolicy1.equals("<po...

2010-04-21 14:27:58 125

【转】k-means聚类算法的java实现描述

从网上找到了很多定义,这里选取比较典型的几个;K-Mean 分群法是一种分割式分群方法,其主要目标是要在大量高纬的资料点中找出 具有代表性的资料点;这些资料点可以称为群中心,代表点;然后再根据这些 群中心,进行后续的处理,这些处理可以包含1 )资料压缩:以少数的资料点来代表大量的资料,达到资料压缩的功能;2 )资料分类:以少数代表点来代表特点类别的资料,可以降低资料...

2010-04-21 14:14:15 104

ttserver-java改写成tctserver-java(日记)

看了一段时间ttserver的c代码。发现ttserver是根据输入的字符,寻找具体的方法。数据到达ttserver端以后,就根据传输的代码格式拆包。要使用tctserver可以修改ttserver-java的protocol包中的方法 增加一个叫misc的类,操作ttserver的misc方法。package tokyotyrant.protocol;//import...

2010-04-19 14:00:23 171

原创 XXX

此文章封闭!

2010-01-19 09:54:05 138

原创 java linkedlist 算法笔记一

自我理解java linkedlist插入数据的算法:首先看一下,linkedlist插入源代码:public class LinkedList extends AbstractSequentialList implements List, Deque, Cloneable, java.io.Serializable{ private transient ...

2010-01-04 19:08:40 92

原创 TCB同步时机问题

今日做了一个TC数据库的nio连接端。在tc持久化数据,使用sync()同步方法时,如果时机不得当,会严重耗费内存。 我的程序架构如下: mina server + tcb(BDB) 每次同步tcb数据,内存都会急剧暴增。很长时间都搞不懂,当去掉tc,mina内存用得很少。大概维持在250 - 190m左右。 然后修改了同步时间,当数据量达到10000时,同步t...

2009-12-26 11:22:16 91

tokyocabinet中HDB和BDB引擎的存储速度比 ...(补充)

当时测试其实有误那个只是内存写入写出测试没有写文件~~~~ 往后再出个日志,记录一下写文件速度比较 

2009-12-25 11:04:02 181

tokyocabinet

tokyocabinet bdb数据库,有个轻微小bug当请求量达到100或以上,bdb,会出现取值错误。把部分不属于本key的指针值,取出来~~~ 

2009-12-25 11:00:30 85

mina框架出现too many open files解决办法

当mina nio产生大量socket,而且底层的socket长期处于Time_Wait状态用netstat -p可以查看 就会产生too many open files异常。此时,在程序启动脚本加入ulimit -SHn 30000 注:红色部分自定义 扩大linux文件打开数量,问题解决。或者修改socket的等待时常。 apache的官...

2009-12-16 14:17:22 392

flash10active

有需要就下吧flash10activeflash10activeflash10active

2009-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除