【第22期】观点:IT 行业加班,到底有没有价值?

nltk的简单应用

转载 2015年11月19日 11:12:24

简单例子

# -*- coding: utf-8 -*-
"""
http://www.nltk.org/
首页示例
"""
import nltk
 
# Tokenize and tag some text:
sentence = "At eight o'clock on Thursday morning Arthur didn't feel very good."
tokens = nltk.word_tokenize(sentence)
print tokens
 
tagged = nltk.pos_tag(tokens)
print tagged[0:6]
 
# Identify named entities:
entities = nltk.chunk.ne_chunk(tagged)
print entities
 
# Display a parse tree:
from nltk.corpus import treebank
t = treebank.parsed_sents('wsj_0001.mrg')[0]
t.draw()
 
# NLTK中文语料库 sinica_treebank
from nltk.corpus import sinica_treebank
sinica_text = nltk.Text(sinica_treebank.words())
print sinica_text
 
for (key, var) in sinica_treebank.tagged_words()[:8]:
    print '%s%s' % (key, var),
 
# NLTK中文句法树
sinica_treebank.parsed_sents()[15].draw()


演示使用NLTK让计算机学习如何通过名字识别性别

# -*- coding: utf-8 -*-
 
"""
演示使用NLTK让计算机学习如何通过名字识别性别。
"""
 
import nltk
 
# 定义学习方法
def gender_features(word):
    return {'last_letter':word[-1]}
 
# 导入学习的姓名性别名单
from nltk.corpus import names
import random
names = ([(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('female.txt')])
random.shuffle(names)
 
# 开始学习
f = [(gender_features(n), g) for (n, g) in names]
trainset, testset = f[500:], f[:500]
c = nltk.NaiveBayesClassifier.train(trainset)
 
# 测试
print c.classify(gender_features('Neo'))
print c.classify(gender_features('Trinity'))



举报

相关文章推荐

探索 Python、机器学习和 NLTK 库 开发一个应用程序,使用 Python、NLTK 和机器学习对 RSS 提要进行分类

挑战:使用机器学习对 RSS 提要进行分类 最近,我接到一项任务,要求为客户创建一个 RSS 提要分类子系统。目标是读取几十个甚至几百个 RSS 提要,将它们的许多文章自动分类到几十个预定义的主题领...

Python机器学习库

原文:http://qxde01.blog.163.com/blog/static/67335744201368101922991/   <span style

程序员升职加薪指南!还缺一个“证”!

CSDN出品,立即查看!

开发一个应用程序,使用 Python、NLTK 和机器学习对 RSS 提要进行分类

开发一个应用程序,使用 Python、NLTK 和机器学习对 RSS 提要进行分类 作者:Chris Joakim, 高级软件工程师, Primedia Inc 简介: 机器学习取决于 I...

python的nltk中文使用和学习资料汇总帮你入门提高

分类: Python2013-09-30 11:13 443人阅读 评论(1) 收藏 举报 自然语言处理nltkpython 目录(?)[+] nltk是一个...
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)