自然语言处理
[['自然', 'n'], ['语言', 'n'], ['处理', 'v']]
samarua
while "live" : print("Loli")
展开
-
【词性标注】词性标注器设计
写在前面:本文用基于nltk库和Brown语料库进行演示:from nltk.corpus import brownimport nltksent = brown.sents(categories = 'news')[0] # Brown语料库中取一个句子,一会儿我们可对其进行词性标注tagged_sents = brown.tagged_sents(categories = 'news') # Brown语料库提供的人工的正确标注,一会儿我们用它来评估我们.原创 2020-11-04 20:14:24 · 632 阅读 · 0 评论 -
【词性标注】一篇文章弄懂词性标注
词性标注概述▶ 词类同一个词类的词具有相同的语法功能、在同样的位置中出现划分词类的目的在于描写语句的结构规则,以基于模式自动处理成批的语料(便于自然语言处理)词类 = 实词(content) + 虚词(function)实词——动词、形容词、代词、量词、数词虚词——连词、助词、语气词▶ 词性词性是对具体的词,根据其语法,兼顾其意义,将其归类的结果▶ 词性标注词性标注就是在给定的句子中,判定每个词的语法范畴,确定词性并加以标注的过程单类词(只具有单一词性的词):可以直接查词典原创 2020-11-04 20:12:39 · 4113 阅读 · 1 评论 -
【NLP+机器学习】实现对评论的情感倾向分析,预测,评估
原创 2020-10-29 13:09:05 · 1781 阅读 · 0 评论 -
【文本聚类】三种聚类算法实现影评的情感分析(K-Means,Agglomerative,DBSCAN)
文本处理原创 2020-10-29 12:53:30 · 3561 阅读 · 1 评论 -
【文本聚类】一篇文章弄懂三种聚类算法(K-Means,Agglomerative,DBSCAN)
原创 2020-10-29 12:52:45 · 2503 阅读 · 0 评论 -
【文本分类】基于两种分类器实现影评的情感分析(SVM,KNN)
朴素贝叶斯(Naïve Bayes)原创 2020-10-29 12:52:02 · 7917 阅读 · 2 评论 -
【文本分类】基于三种分类器实现影评的情感分析(朴素贝叶斯,最大熵,决策树)
引言有监督的学习无监督的学习训练集包括输入和由人工标注的输出(x,y)其训练集没有人为标注的输出(x)分类器(classifier)聚类(cluster)本文演示的是有监督学习,即分类器(classifier) 朴素贝叶斯(Naïve Bayes)属性独立性是Naïve Bayes的前提也是关键思想:通俗地说,就是根据已有的数据集,得到先验概率和各种属性对于各种决策的条件概率(可以理解为每种属性对每种决策的影响的大小);面原创 2020-10-29 12:46:21 · 3708 阅读 · 0 评论 -
NLTK载入自己的语料库
加入自定义语料库(loli.txt)的完整文件路径如下:Users/samarua/Documents/NLP自然语言处理/自定义语料/loli.txt语料内容假设为:loli loli loli PlaintextCorpusReader 纯文本语料库阅读器from nltk.corpus import PlaintextCorpusReader corpus_root = r'/Users/samarua/Documents/NLP自然语言处理/自定义语料'原创 2020-10-18 23:56:20 · 1873 阅读 · 1 评论 -
【NLP】朴素贝叶斯及其Python实现
文本分类(Document Classification / Document Categorization)▶ 分类方法1——基于规则(Hand-coded)精度高开销大▶ 分类方法2——机器学习(Machine learning)是一种计算机算法,该算法通过对数据做自动分析来获得规律,并利用这些规律对未知数据进行预测。它是人工智能的一个分支。有监督学习无监督的学习训练集包括输入和由人工标注的输出其训练集没有人为标注的输出分类器(classifie原创 2020-10-18 23:45:08 · 658 阅读 · 1 评论 -
【NLP】N-gram模型及其平滑优化
从chain-rule说起▶ 语言模型计算词序列出现的概率p(W)=p(w1,w2,w3...wn)p(W) = p(w_1,w_2,w_3...w_n)p(W)=p(w1,w2,w3...wn)给定一个词序列,下一个词出现的概率p(w5|w4,w3,w2,w1)p(w_5|w_4,w_3,w_2,w_1)p(w5|w4,w3,w2,w1)p(W)p(W)p(W) 或 p(wn∣w1,w2,...,wn−1)p(w_n|w_1,w_原创 2020-10-18 22:18:24 · 3095 阅读 · 0 评论 -
【自然语言处理】一篇文章入门分词(Tokenization)
英文分词英文极为简单,下面给出两种分词思路:原创 2020-10-17 09:17:48 · 7163 阅读 · 2 评论 -
【自然语言处理】简单而强大的NLTK库
简介NLTK是Python上著名的⾃然语⾔处理库。⾃带语料库,以及分词等功能。NLTK被称为“使用Python进行教学和计算语言学工作的绝佳工具”,以及“用自然语言进行游戏的神奇图书馆”。原创 2020-10-17 09:08:48 · 1287 阅读 · 0 评论