![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
文本检索
icelovely
这个作者很懒,什么都没留下…
展开
-
TF_IDF模型和文本相似度的计算
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相转载 2012-04-08 15:47:42 · 5972 阅读 · 0 评论 -
网页爬虫抓取utf-8的html时转换为GBK字符串
if(Charset.forName("UTF-8").newEncoder().canEncode(sb.toString())){ //UTF-8转GBK文本 Charset inCharset = Charset.forName("UTF-8"); Charset outCharset = Charset.forName("GBK"); ByteBuffer buff原创 2012-04-22 20:29:13 · 1112 阅读 · 0 评论 -
解决 ICTCLAS在Tomcat无法使用的方法
毕业设计的项目需要ICTCLAS在服务器上跑起来,所以需要在web服务器上能够调用ICTCLAS的JNI接口以及DLL。 网上大部分的答案是将ICTCLAS需要的Data文件夹和DLL拷到Tomcat根目录下。但是试验之后都是失败告终。 之后有听说将Data放在跟目录下,dll放入tomcat的bin文件夹下。试验实例对象生成成功,但是无法加载数据。失败 正确的方法时将Data和DL原创 2012-05-13 14:40:24 · 533 阅读 · 1 评论