![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 82
tianbwin2995
这个作者很懒,什么都没留下…
展开
-
python中文分词:结巴分词
http://www.cnblogs.com/kaituorensheng/p/3595879.html特点1,支持三种分词模式: a,精确模式,试图将句子最精确地切开,适合文本分析; b,全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; c,搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,转载 2016-03-15 18:30:51 · 1922 阅读 · 0 评论 -
隐马尔可夫模型(三)——隐马尔可夫模型的评估问题(前向算法)
隐马模型的评估问题即,在已知一个观察序列O=O1O2...OT,和模型μ=(A,B,π}的条件下,观察序列O的概率,即P(O|μ} 如果穷尽所有的状态组合,即S1S1...S1, S1S1...S2, S1S1...S3, ..., S3S3...S3。这样的话t1时刻有N个状态,t2时刻有N个状态...tT时刻有N个状态,这样的转载 2016-03-15 18:44:59 · 594 阅读 · 0 评论 -
菜鸟如何使用Hanlp
boss给了个做分词的任务,最开始想用的是结巴分词and正则表达式。后来发现结果并不好,需要一遍一遍筛选【第一个标准筛选出80%的数据,然后制定第二个标准,继续筛选,然后制定第三个标准筛选,等等等等】自己用了一下结巴分词,感觉对于人名,地名,机构名,只是泛泛地使用了一下。在实际分开的时候,并不能很好地分开机构名称。于是转而使用hanlp分词但是hanlp分词的缺点是只有在java上可以用,原创 2016-03-20 21:18:55 · 23577 阅读 · 1 评论 -
python group()
python group()正则表达式中,group()用来提出分组截获的字符串,()用来分组import rea = "123abc456"print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0) #123abc456,返回整体print re.search("([0-9]*)([a-z]*)([0-9转载 2016-04-01 14:01:46 · 827 阅读 · 0 评论 -
中文分词词性对照表
汉语词性对照表[北大标准/中科院标准] 词性编码词性名称注 解Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码转载 2016-06-13 18:22:17 · 533 阅读 · 0 评论 -
文本分类
概览 自动文本分类(Automatic Text Categorization),或者简称为文本分类,是指计算机将一篇文章归于预先给定的某一类或某几类的过程。 文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别.文本分类是文本挖掘的一个重要内容。 所谓文本分类,是指对所给出的文本,给出预定义的一个或多个类别标号,对文本进行准确、高效的分类.它是许多数据管理任务的重要组成部分转载 2016-06-15 13:41:04 · 1238 阅读 · 0 评论 -
浅谈利用逻辑回归来解决文本分类时的模型调优
http://blog.csdn.net/busycai/article/details/6159109 本文适合有少许文本分类实践经验的同学。1.什么是文本分类?简单点说,给定类别,将文本分到某个或某几个类别中。比如,一篇网页,判断它是体育类还是政治类还是娱乐类。当然网页比文本稍微复杂一些,需要先做一些页面解析等预处理工作。文本分类可看作网页分类的一个子问题。想继续了解文本分类,推荐看计算所王斌转载 2016-07-28 13:33:23 · 2251 阅读 · 0 评论