如何用python训练语料库_使用NLTK for Python训练定制语料库

最新推荐文章于 2022-09-20 19:17:38 发布

最新推荐文章于 2022-09-20 19:17:38 发布 · 766 阅读

文章标签：

#如何用python训练语料库

本文介绍了一种使用自定义语料库进行情感分析的方法。通过对1,000篇正面评论和1,000篇负面评论进行预处理，并采用朴素贝叶斯分类器进行训练和测试，实现了对推文的情感分析。文章详细描述了数据预处理步骤及如何调整现有代码以适应新的文本数据。

我试着用我自己的文档训练语料库。我的文档结构与原始movie_reviews语料库数据的方式相同，因此1K正文本文件位于文件夹“pos”中，1K负文本文件位于文件夹“neg”中。每个文本文件包含25行tweet，它们被清除，如：url、用户名、大写字母、删除的标点符号。在

如何调整此代码以使用自己的文本数据而不是电影评论？在import nltk.classify.util

from nltk.classify import NaiveBayesClassifier

from nltk.corpus import movie_reviews

from collections import defaultdict

import numpy as np

# define the split of % training / % test

SPLIT = 0.8

def word_feats(words):

return dict([(word, True) for word in words])

posids = movie_reviews.fileids('pos')

negids = movie_reviews.fileids('neg')

negfeats = [(word_feats(movie_reviews.words(fileids=[f])), 'neg') for f in negids]

posfeats = [(word_feats(movie_reviews.words(fileids=[f])), 'pos') for f in posids]

cutoff = int(len(posfeats) * SPLIT)

trainfeats = negfeats[:cutoff] + posfeats[:cutoff]

testfeats = negfeats[cutoff:] + posfeats[cutoff:]

print 'Train on %d instances\nTest on %d instances' % (len(trainfeats),len(testfeats))

classifier = NaiveBayesClassifier.train(trainfeats)

print 'Accuracy:', nltk.classify.util.accuracy(classifier, testfeats)

classifier.show_most_informative_features()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39569753

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python训练自己中文语料库_自然语言处理——NLTK中文语料库语料库

weixin_39805883的博客

11-26

974

Python NLTK库中包含着大量的语料库，但是大部分都是英文，不过有一个Sinica（中央研究院）提供的繁体中文语料库，值得我们注意。在使用这个语料库之前，我们首先要检查一下是否已经安装了这个语料库。>>>import nltk>>>nltk.download()检查箭头所指的sinica_treebank是否安装，如果未安装，则首先要进行安装。安装完毕后就可以使用了import nltkfr...

python建立英文语料库_使用NLTK创建新的语料库

weixin_39825105的博客

12-05

1437

经过几年的研究之后，下面是更新的教程如何使用文本文件目录创建NLTK语料库？主要思想是利用nltk.corpu.Reader包裹。中有一个文本文件目录的情况下英语，英国的，英国人的，最好使用PlaintextCorposReader.如果您有一个如下所示的目录：newcorpus/file1.txtfile2.txt...只需使用这些代码行，您就可以得到一个语料库：import...

参与评论您还未登录，请先登录后发表或查看评论

Python-用于训练中英文对话系统的语料库

08-10

用于训练中英文对话系统的语料库 Datasets for Training Chatbot System

python 语料收集

01-29

使用前微信关注小冰，与腾讯智能闲聊互问，用于收集生成式训练语料，语料质量还行吧

python训练自己中文语料库_中文语料库构建过程详细教程

weixin_39609670的博客

11-26

4384

简介今天我想简单记录一下自己构建语料库的过程, 方便自己查看和方便协作. 在工作中我们经常遇到一个问题就是每个研究者都有自己的语料库, 存储格式不同, 有用mysql这种结构化数据库的, 也有mogodb这种文档型数据库, 还有更多的是使用文本文件, 不管哪种形式, 都会导致数据交换出现困难. 他人使用这个语料库的时候需要自己写语料库的预处理函数, 否则语料库是不能进入计算的. 为了减少这种不必要...

python机器学习——NLTK及分析文本数据（自然语言处理基础）

热门推荐

乐亦亦乐的博客

08-15

2万+

NLTK NLTK（Natural Language Toolkit），自然语言处理工具包，在NLP（自然语言处理）领域中，最常使用的一个Python库。自带语料库，词性分类库。自带分类，分词功能。 NLTK安装安装：pip install NLTK 测试：import nltk Anaconda不用安装安装语料库： import nltk nltk.download() 执行...

python训练自己中文语料库_Python nltk载入自己的中文语料库的两种方法 for Windows7...

weixin_39939276的博客

11-21

728

前提：把自己的语料库(sogou文本分类语料库)放在LTK_DATA/corpora/目录下；然后在命令行输入以下之后，即可看到所有的txt文件名列表了。第一种方法：BracketParseCorpusReader更适合已解析过的语料库from nltk.corpus import BracketParseCorpusReadercorpus_root =r"F:\nltk_data\corpor...

python语料库_Python-使用NLTK创建新的语料库

weixin_39620684的博客

11-29

1562

小编典典如果你的目录如下所示：newcorpus/file1.txtfile2.txt...只需使用以下代码行，你就可以得到一个语料库：import osfrom nltk.corpus.reader.plaintext import PlaintextCorpusReadercorpusdir = 'newcorpus/' # Directory of corpus.newcorpus = Pl...

nltk_data nltk语料库下载

07-29

最近在学Python自然语言处理，要用到nltk这个库的各种内置语料库，然而我nltk.download()的时候经常下载一半就卡了，浪费了很多时间。特意分享给大家~

python训练自己中文语料库_使用word2vec训练wiki中文语料

weixin_39785669的博客

11-26

333

实验环境：Ubuntu + eclipse + python3.5首先（1）下载最新中文wiki语料库：（2）由于下载之后，语料库上的编码格式会有不同，因此需要进行处理一下：借鉴了这篇文章。这样处理后打开wiki.cn.text看有大部分的繁体字和少量英文，所以还需进一步处理（3）　然后将繁体改为简体，本次实验采用了opencc工具。安装：sudo apt-get install opencc安装...

如何用python训练语料库_如何在Python Natural Language Toolkit中创建自己的语料库？...

weixin_39535557的博客

12-05

142

I have recently expanded the names corpus in nltk and would like to know how I can turn the two files I have (male.txt, female.txt) in to a corpus so I can access them using the existing nltk.corpus m...

《Python自然语言处理》-ch1-语料库

weixin_47195879的博客

09-20

941

自然语言处理-语料库-加载语料库

语料库标注与训练模型---Python自然语言处理（7）

李元静

04-21

1万+

目录什么是拼音转换什么是拼音转换

python训练自己中文语料库_Windows下基于python3使用word2vec训练中文维基百科语料(一)...

weixin_39779530的博客

11-21

224

在进行自然语言处理之前，首先需要一个语料，这里选择维基百科中文语料，由于维基百科是.xml.bz2文件，所以要将其转换成.txt文件，下面就是相关步骤：步骤一：下载维基百科中文语料然后解压文件文件夹里是一个这个文件步骤二：安装依赖库我们需要安装一些依赖库，有numpy、scipy以及gensim，安装gensim依赖于scipy，安装scipy依赖于numpy。我们直接用pip安装numpy，在w...

如何用python训练语料库_使用中文维基百科语料库训练一个word2vec模型并使用说明...

weixin_42137022的博客

02-05

812

本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型。相关资料下载：一、语料库的下载我下载是20190401文件，1.5G左右是一个压缩包，下载的时候需要注意文件的名称。二、语料库文章的提取下载完成之后，解压缩得到的是一个xml文件，里面包含了许多的文章，也有许多的日志信息。所以，我们只需要提取xml文件里面的文章就可以了。我们通过WikiExtractor来提取xml文件中的文...

Gensim训练维基百科语料库

weixin_33859844的博客

05-30

335

过程基本上是参照这篇文章来的 yq.aliyun.com/articles/66… linux opencc安装 segmentfault.com/a/119000001… www.jianshu.com/p/a9d0b9241… 可视化： www.cnblogs.com/Luv-GEM/p/1… github.com/wshuyi/demo… 代码稍后整理一下放github ...

如何用python训练语料库,如何在我自己的语料库上训练GloVe算法

weixin_34509784的博客

02-05

440

I tried to follow this.But some how I wasted a lot of time ending up with nothing useful.I just want to train a GloVe model on my own corpus (~900Mb corpus.txt file).I downloaded the files provided in...

在中文大语料库上训练word2vector

xiayto的博客

07-25

4454

目录： 1、词向量的作用 2、词向量的训练方法 3、gensim实现大语料库的word2vec 1、词向量的作用传统使用one-hot表示一个词，用multi-hot表示一个文档。这样做主要的问题是： 1）维度大，独热向量稀疏。 2）损失语义信息，每个词用一个维度进行编号，词之间的余弦相似度都为0 word embedding的优势： 1）分布式的表示（distribution...

python怎么训练分类器_如何调整NLTK Python代码，使我只对分类器进行训练

weixin_39527879的博客

12-10

139

import nltkimport reimport csv#Read the tweets one by one and process itdef processTweet(tweet):# process the tweets#convert to lower casetweet = tweet.lower()#Convert www.* or https?://* to URLtweet ...

python汉字同义词替换_用WordNet和NLTK-python替换语料库中的同义词

05-21

要使用WordNet和NLTK库来替换语料库中的同义词，可以按照以下步骤进行： 1. 安装NLTK库和WordNet语料库可以使用pip命令安装NLTK库，如下所示： ``` pip install nltk ``` 然后，下载WordNet语料库，可以在...