Text Classfy
文章平均质量分 75
Walter_Jia
性格开朗,爱好广泛(篮球、象棋、游泳等),网络安全领域协议识别,Linux研发,希望和您成为真心朋友。
展开
-
【文本分类】最强中文分词系统ICTCLAS
ICTCLAS中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制了汉语词法分析系统ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持gb2312、GBK、UTF8原创 2014-05-09 16:03:29 · 7079 阅读 · 1 评论 -
【文本分类】文本分类流程及算法原理
分类体系分类:给定一个对象,从一个事先定义好的分类体系中挑出一个或多个最适合该对象的类别。文本分类(TC, Text Categorization):在给定的分类体系下,根据文本内容自动的确定文本关联的类别。从数学角度看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中,该映射可以是一对一或一对多的映射。 f:A→B 其中,A表示待分类的文本集合,B表示分类原创 2014-02-23 18:33:23 · 19003 阅读 · 0 评论 -
WebsenseURL 分类及应用识别类别信息
http://cn.websense.com/content/websense-url-categories.aspxWebsense 拥有最多的基本类别。堕胎公正看待该问题的站点。母亲选择权:由支持合法堕胎以及支持、鼓励寻求合法堕胎途径的企业所创办的站点,或者提供相关信息的站点。胎儿生存权:由反对合法堕胎和希望增加堕胎限制的企业所创办的站点,或者提供相转载 2014-01-02 16:12:37 · 2018 阅读 · 0 评论 -
【文本分类】friso中文分词器介绍(c 开源)
一、friso中文分词器Friso是使用c语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支持对UTF-8/GBK编码的切分。【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14.5M。】1。目前最高版本:friso 1.6.0,同时支持对UT原创 2014-02-12 17:16:37 · 4070 阅读 · 0 评论 -
【文本分类】中文分词开源软件介绍
链接:http://www.oschina.net/project/tag/264/segment 开源中国社区1、IKAnalyzerIKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的原创 2014-02-12 16:42:25 · 4155 阅读 · 0 评论 -
【python 编程】网页中文过滤分词及词频统计
# -*- coding: cp936 -*-import urllib2import reimport sysimport os#os.system(cmd)os.system('ls')doc_no = 1def start_fun(): reload(sys) sys.setdefaultencoding('ut原创 2014-05-12 17:06:42 · 5646 阅读 · 0 评论 -
【Python 编程】实现文本分类中的信息增益算法
def IG_count(c1,c2): list1 = [] list2 = [] list3 = [] dict1 = dict() ig_dict = dict() class_count = 2 doc_count = 3 c1_file = open(c1,"r") #c1_wo原创 2014-05-13 19:37:13 · 6188 阅读 · 1 评论 -
【python 编程】文本分类KNN算法实现及结果输出
KNN算法实现文本分类ascii系统 5账号 2密码 2分辨率 2用户名 1用户 1软件 1苹果 1密码技术 1宽度 1火狐 10、rd-doc—count矩阵分辨率 2 22 [1, 1]用户名 1 12 [1, 1]鼠标 0 11 [0, 1]密码技术 1 12 [1, 1]密码 2 22 [1, 1]原创 2014-05-14 16:02:51 · 9665 阅读 · 0 评论 -
【文本分类】Friso分词系统中MMSeg算法说明
MMSeg算法说明首先来理解一下chunk,它是MMSeg分词算法中一个关键的概念。Chunk中包含依据上下文分出的一组词和相关的属性,包括长度 (Length)、平均长度(Average Length)、标准差的平方(Variance)和自由语素度(Degree Of Morphemic Freedom)。下面列出了这4个属性:属性含义长度(Len原创 2014-05-09 15:36:12 · 2028 阅读 · 4 评论