利用python进行自然语言处理学习笔记——chap1

第一章.语言处理与python

  1. nltk语料库下载
  2. python基础知识(list/string等)
  3. 计算语言——简单的统计(计数与频率)
  4. 语言理解技术

import nltk
test1 = ['a', 'b', 'c', 'd']
frep = nltk.FreqDist(test1)  #计数返回FreqDist Class including keys
frep.plot(cumulative = TRUE) # 画出累计图

一般大部分的出现频率过高的词对于把握文本的主题和风格等没有意义
出现一次的低频词(hapaxs)对于文本特征选取也没有更多信息量

添加新的词汇选取方式

  • 长高频词
Vac = set(test1)
#长高频词
long_words = [w for w in Vac if len(w)>10 and test1[w]>10]
  • 搭配
    collection和bigrams方法的使用

NLTK简单统计函数描述


分析非结构化文本的方法日益发展

1.词义消歧
2.anaphora resolution
3.自动生成语言
4.机器翻译问题

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值