Text Process
文章平均质量分 80
小妖精Fsky
这个作者很懒,什么都没留下…
展开
-
特征选择与特征权重计算的区别
在文本分类的过程中,特征(也可以简单的理解为“词”)从人类能够理解的形式转换为计算机能够理解的形式时,实际上经过了两步骤的量化——特征选择阶段的重要程度量化和将具体文本转化为向量时的特征权重量化。初次接触文本分类的人很容易混淆这两个步骤使用的方法和各自的目的,因而我经常听到读者有类似“如何使用TFIDF做特征选择”或者“卡方检验量化权重后每篇文章都一样”等等困惑。文本分类本质上也是一个模式识别转载 2014-11-25 16:47:15 · 1861 阅读 · 0 评论 -
根据单词中字符的位置,确定单词为句中第几个
public static void main(String[] args) { // TODO Auto-generated method stub String text = "There was no difference in the effects of AzaC versus AzadC, as both increased the IRF-4 mRNA lev原创 2015-01-05 09:02:45 · 844 阅读 · 0 评论 -
英语分词
package com.triggerprotein;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import原创 2015-06-21 11:38:38 · 752 阅读 · 0 评论 -
英语句子分词
英语分词:1.利用正则表达式(\w)分词,按非字母(标点符号,\等)分词 2.利用斯坦福软件分词 3.利用推特工具分词有空将详细程序贴上来原创 2015-06-17 11:36:45 · 2205 阅读 · 0 评论 -
词干提取和词形还原
词干提取(stemming)和词形还原(Lemmatisation)一直弄不清谁是谁,找到一篇解释的到位的一篇文章,以备注原博文地址:http://www.tuicool.com/articles/JfE7Nb词干提取( Stemming ) 这是西方语言特有的处理,比如说英文单词有 单数复数的变形,-ing和-ed的变形,但是在计算相关性的时候,应该当做同一个单词。比如 appl转载 2016-01-06 10:52:54 · 6507 阅读 · 1 评论 -
标注的Trigger的位置是否与句子中的位置相同
package AboutProtein;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.原创 2016-01-07 12:50:33 · 562 阅读 · 0 评论