给自己的备忘录
文章平均质量分 77
晓彬
这个作者很懒,什么都没留下…
展开
-
备忘1--myeclipse/eclipse中文出现乱码怎么解决
今天从别的项目中导入java文件时,中文注释都出现乱码了,郁闷,一看就是编码问题. 找到两种解决办法: 第一种比较傻,不过很有效,可以解决挺多编辑软件的编码问题. 建立一个文本文件(txt),把出现乱码的文件的原文考到文本文件里,保存的时原创 2011-09-26 16:30:25 · 545 阅读 · 0 评论 -
dblp解析--一种比较蠢的方法
dblp是一个开放数据集,许多进行数据挖掘的项目均使用它来验证自己的算法.但是,900多M的XML实在很难解析,用Dom解析的话根本不可能,我试过用SAX,不知道是不是我第一次使用SAX的缘故,我将java虚拟机的内存设为1.5g仍然有溢出.实在没办法,就自己动手逐行读dblp的xml文件,再用正则表达式进行匹配,来获得我想要的内容,虽然方法蠢了些,不过还是比较高效的,大概遍历一遍文件只要两分钟.原创 2012-03-05 01:18:35 · 2539 阅读 · 4 评论