python 英语分词_python 英文分词

做kaggle的quora比赛需要用Python处理英文

首先分词

importnltk

sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good."

tokens = nltk.word_tokenize(sentence)

print tokens

['At', 'eight', "o'clock", 'on', 'Thursday', 'morning', 'Arthur', 'did', "n't", 'feel', 'very', 'good', '.']

报错

LookupError:**********************************************************************Resource u'tokenizers/punkt/english.pickle' notfound. Please

use the NLTK Downloader to obtain the resource:>>>nltk.download()

按照提示下载pickle模块后,不再报错

然后标注词性

word_tag=nltk.pos_tag(tokens)printword_tag

word_tag=nltk.pos_tag(tokens)printword_tag

[('At', 'IN'), ('eight', 'CD'), ("o'clock", 'NN'), ('on', 'IN'), ('Thursday', 'NNP'), ('morning', 'NN'), ('Arthur', 'NNP'), ('did', 'VBD'), ("n't", 'RB'), ('feel', 'VB'), ('very', 'RB'), ('good', 'JJ'), ('.', '.')]

tag的含义解释:http://blog.csdn.net/john159151/article/details/50255101

同义:

wordnet

参考:http://www.cnblogs.com/rcfeng/p/3918544.html

实现Python英文分词功能,可以按照以下步骤进行操作: 1. 首先,将英文文本进行预处理,去除多余的空格和标点符号,并将所有字母转换为小写。这可以使用字符串的strip()和lower()方法来实现。 2. 使用split()方法将处理后的文本按空格进行分割,生成一个单词列表。 3. 创建一个空字典,用于记录每个单词出现的频率。 4. 遍历单词列表,对于每个单词,如果它在字典中已经存在,则将对应的值加一;否则,在字典中新增该单词并将其值设为1。 5. 输出字典的内容,可以使用print()函数进行打印。 6. 若要将字典数据输出到文本文档中,可以创建一个函数,接受字典作为参数。在函数内部,打开一个文本文件,并遍历字典的键值对,将键和对应的值转换为字符串并写入文件中。最后,关闭文件。 通过以上步骤,就可以实现Python英文分词功能,并且记录每个单词出现的频率。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [01 用Python 实现一段语句分词,并记录每个单词出现的频率](https://blog.csdn.net/qq_41286751/article/details/120961477)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值