Java编程
文章平均质量分 81
emily2ly
这个作者很懒,什么都没留下…
展开
-
JAVA 读取文件的几个相关类
一 介绍最初Java是不支持对文本文件的处理的,为了弥补这个缺憾而引入了Reader和Writer两个类。java.io下面有两个抽象类:InputStream和ReaderInputStream是表示字节输入流的所有类的超类Reader是用于读取字符流的抽象类InputStream提供的是字节流的读取,而非文本读取,这是和Reader类的根本区别。即用Reader读取出来...原创 2010-08-20 10:01:35 · 240 阅读 · 0 评论 -
JAVA读取WORD,EXCEL,PDF,TXT,RTF,HTML文件文本内容的方法示例
以下是Java对几种文本文件内容读取代码。其中,OFFICE文档(WORD,EXCEL)使用了POI控件,PDF使用了PDFBOX控件。 点击这里 查看相关控件的下载地址和配置方法。WORDpackage textReader;import java.io.*;import org.apache.poi.hwpf.extractor...原创 2010-08-20 10:13:42 · 236 阅读 · 0 评论 -
POI,PDFBOX,JDOM的下载地址和在Eclipse中的配置方法
一、POI POI是Apache的Jakata项目,POI 代表 Poor Obfuscation Implementation,即不良模糊化实现。POI 的目标就是提供一组 Java API 来使得基于 Microsoft OLE 2 Compound Document 格式的 Microsoft Office 文件易于操作。 下载地址 :http://a...原创 2010-08-20 10:21:36 · 255 阅读 · 0 评论 -
JAVA读取系统时间的几种方法及其效率比较
以下给出三种读取系统时间的方法,并且可以看出, 方法三的效率最高 。import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;import java.util.GregorianCalendar;/** * 读取当前系统时间 */public cla...2010-08-20 10:27:52 · 684 阅读 · 0 评论 -
JAVA读取文件的创建时间和修改时间
在系统中存在一个文件test.txt,其属性如下: 下面就给出对这个文件的创建时间 和修改时间 读取的代码。 点击这里 查看对文件内容 的读取代码。import java.io.BufferedReader;import java.io.File;import java.io.IOException;i...2010-08-20 10:33:51 · 606 阅读 · 0 评论 -
在Eclipse下将工程打包成jar格式
一、情况说明前段时间自己写了一个工程DocumentToXML,功能是把文件进行一系列信息的提取(文本内容,文件创建时间等),然后生成对应的XML文档。由于需要提交给组里面的其他人使用,因此要求便于移植。之前没有经历过要跟别人合作的,都是自己写了一个工程能够运行就好了,因此还颇费了一番功夫,看看怎么生成jar给别人调用。 二、查阅资料 这里有一些对jar的说明情况。...2010-08-20 10:56:09 · 119 阅读 · 0 评论 -
JAVA的JDK环境变量设置
1.安装jdk1.6.0: 执行j2sdk安装程序,自定义路径,我们的安装路径为:C:\Program Files\Java\jdk1.6.02.配置jdk1.6.0 我的电脑->属性->高级->环境变量->系统变量中添加以下环境变量:JAVA_HOME = C:\Program Files\Java\jdk1.6....2010-08-20 17:22:51 · 117 阅读 · 0 评论 -
使用ictclas4j过程中产生的内存不足问题及其解决方法
在读取中文pdf文档的内容并对用ictclas4j对其进行分词过程中,在读取pdf这一步上面没有问题(即没有报错,可以正确运行,但是会出现一些乱码,这可能是由于pdfbox包的不够完善,可以通过用xpdf来读取进行一定的改善。) 但是到了分词这一步上面有时候会报错:Exception in thread "main" java.lang.OutOfMemoryError: J...2010-08-20 17:42:39 · 168 阅读 · 0 评论 -
用xpdf和pdfbox来处理中文PDF文档及其比较
我在以前的项目中使用的是pdfbox,在读取中文文档时可以读出大部分的文字,但是在数字、分页等地方还是不可避免的出现乱码。于是我在网上搜索,看有没有什么解决方法,看到有说法: “PDFBox看起来非常的方便,它的API功能强大。甚至能和Lucene进行无缝的结合。但是它有一个致命的弱点,就是它不支持中文。要提取中文的文本,可以采用另一个非常出色的工具xpdf。” 于...2010-08-20 17:58:56 · 1055 阅读 · 0 评论