![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
two_robots
记录成长,分享喜悦
展开
-
term weight 相关
对query分词后,我们需要对计算query中各个term的权重。Term weighting在文本检索,文本相关性,核心词提取等任务中都有重要作用。 举例来说:“荷尔蒙是什么?”如果分词之后直接进行搜索,可能出来的效果并不是很理想,在不能完全匹配的情况下,”什么“ ”是“ 这样的term对query结果干扰很大。 我们人工进行分析,term weighting结果可能是: “什么 0.1,是0....转载 2018-03-08 08:54:53 · 1552 阅读 · 0 评论 -
文章关键词提取
方法:1、统计学原来(statistics)特点:有相应的参照指标(a)tf-idf:反应不了词汇与内容的关系(b)pagerank:网格模型,表现比tf-idf好2、rule(基于规则)特点:用机器学习的方法,基于语料的,需要有人工标注关键词的文章作为语料,用神经网络进行模型训练。(趋势)参考:https://zhuanlan.zhihu.com/p/27889420...原创 2018-03-08 16:42:11 · 1532 阅读 · 0 评论 -
分词的种类和原理介绍
目前的分词方法归纳起来有3 类:第一类是基于语法和规则的分词法。其基本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统还处在试验阶段。第二类是机械式分词法(即基于词典)。机械分词的原理是将文档中的字符串与词典中的词条进行逐一...转载 2018-03-26 17:30:01 · 2580 阅读 · 0 评论 -
文本分类一定要先对文本分词吗?
NO,我们可以顺序选取文中相邻的两个字,作为一个“词”(术语叫bigram)。这两个字在数量很多的时候可以反映文章的主题(参考清华大学2016年的一篇论文《Zhipeng Guo, Yu Zhao, Yabin Zheng, Xiance Si, Zhiyuan Liu, Maosong Sun. THUCTC: An Efficient Chinese Text Classifier. 2016...转载 2018-03-27 14:01:55 · 1909 阅读 · 0 评论 -
准确率 精确度 召回率
真正(TP):分到类A且真的属于类A的实例数量 ;真负(TN):没有分到类A且真的不属于类A的实例数量;假正(FP):分到类A但不属于类A的实例数量;假负(FN):没有分到类A但属于类A的实例数量;精确度=(TP+TN)/(TP+TN+FP+FN)准确率=TP/(TP+FP)召回率=TP/(TP+FN)链接:https://www.zhihu.com/question/19645541/answe...转载 2018-03-29 15:00:21 · 482 阅读 · 0 评论