智能科学与技术
文章平均质量分 93
Ausgelebt
目前的计划是一直发疯,,,直到真的疯了为止
展开
-
【自然语言处理】补充:基于向量空间的分类器
同前面一样,训练集包含一系列文档,每篇都标记着它的类别。统计量(度量两者,term和类别,独立性的缺乏程度,其值越大,独立性越小,相关性越大,更适合作为特征被选出来):计算每个类的中心向量(质心,所有文档向量的算数平均),将每篇测试文档分到离它最近的那个中心向量。该方法非常简单,也容易实现,在大多数情况下,其效果比朴素贝叶斯和Rocchio要好。如果急切需要一种精度很高并很快投入运行,且不是特别关注效率,那么就使用KNN。的最近的k个邻居中属于c类的比例,将d分到具有最高概率的类别c中。原创 2024-10-07 16:32:11 · 609 阅读 · 0 评论 -
【自然语言处理】补充:文本分类及朴素贝叶斯分类器
多元贝努利模型,它等价于二值独立模型,对于词汇表中的每个词项都对应一个二值变量,1和0分别表示词项在文档中出现和不出现。例如:对于UK类别中的一篇文档,在第一个位置上生成QUEEN的概率和在最后一个位置上生成它的概率一样。贝努利模型只考虑词项的出现或不出现(即二值),并不考虑出现的次数,而多项式模型则要考虑出现次数。以该类为条件,(在各自位置上)基于概率P(tk|c)产生每个词语,这些词语之间相互独立。但是,训练集的规模总是有限的。上式中存在过多的参数,每个参数都是一个类别和一个词语序列的组合。原创 2024-09-27 17:16:42 · 1071 阅读 · 0 评论 -
【自然语言处理】补充:词项权重计算及向量空间模型
除词项频率tf外,我们还想利用词项在整个文档集中的频率进行权重和评分计算。原创 2024-09-21 16:59:01 · 753 阅读 · 0 评论 -
【自然语言处理】补充:布尔模型
假定词汇表的大小(即词项个数)=500K,词项-文档矩阵将非常大,矩阵大小为500K*1M=500G。但是该矩阵中最多有10亿(1G)个1,此时矩阵高度稀疏(1G/500G=0.2%),应该有更好的表示方法(比如仅仅记录所有1的位置):假定N=一百万篇文档(1M),每篇有1000个词(1K),每个词平均有6个字节(包括空格和标点符号),那么所有文档将约占(1M。是指利用AND,OR或者NOT操作符将词项连接起来的查询,例如:信息AND检索、信息OR检索、信息AND检索AND NOT教材。原创 2024-09-20 12:32:01 · 669 阅读 · 0 评论 -
【自然语言处理】第二章现代语言学基础
从语言使用时的外部环境来看句子在交际中实际传递的信息、发挥的功能,就是调用语用系统对句子的语义做出更全面的解释。语用系统的本质是基于经验的逻辑推理。原创 2024-09-07 21:01:55 · 1351 阅读 · 0 评论 -
【自然语言处理】第一章绪论
自然语言通常指人类的语言是人类的思维和逻辑的载体是人类智能的外在表现形式之一对自然语言的研究是人工智能的重要研究内容使计算机理解人类的语言,能够让计算机以自然语言作为接口与人类进行交互从事NLP相关工作的研究人员通常具备计算机科学与技术相关的背景知识,能够从计算机科学与技术的角度看待NLP问题他们更加关注NLP问题的可计算性,算法效率的优化以及相关应用等方面的问题。原创 2024-09-07 19:14:32 · 781 阅读 · 0 评论