- 博客(4)
- 收藏
- 关注
IBM的两个开源工具包:UIMA和IODT
今天看了IBM公司开发的两个开源工具包,名称分别是UIMA和IODT。 UIMA是Unstructured Information Management Architecture,我译作“非结构化信息的管理架构”。可以在这里找到它的相关介绍和下载:http: //www.alphaworks.ibm.com/tech/uima。从它的名字上我们可以对它的功能猜出个一二来了,即通过...
2007-02-05 16:37:00
293
第一阶段的工作总结
昨天终于把抽取网页信息的和与数据库连接的两部分代码写完并测试了,基本上还是可以运行滴,只是还是有些小bug,这都是源于编程时想的不够仔细。在这过程中碰到了几个困难: 1。网页的源代码采用的字符编码问题。因为网页的源代码里是夹杂着中文字符的,所以我先以字节流的形式将整个源代码文件的内容读入一个字节数组里(byte[]),然后通过String类的构造函数String(b...
2007-01-29 13:22:00
108
关于如何获取网页代码的问题
我正在做一个数据挖掘的项目,第一步要把某个网站上的网页的代码下载下来,下面是我写的获取网页代码的程序的源代码: /** * Download the file specified by an URL. */ package fetchInformation; import java.io.*; import java.net.*; /** * @author caoj...
2007-01-21 17:35:50
139
Things to do before the journey to hometown
Time flies. In my plan, the date of my journey to hometown is 2007.2.10, so I still have about 20 days to finish the work I am doing. Oh, God, I prey I can do it. Things include: 1.Da...
2007-01-20 10:44:14
98
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人