Chapter 1:语言处理与Python—1.1 语言计算:文本和词汇

problem:

  • 缺少的包可以使用 pip install packagename 安装
  • 需要升级的则使用 pip install --upgrade packagename

packagename:NumPy,Matplotlib,future

  • P8:>>>from _future_  import division

            >>>len(text3) / len(set(text3))

    应改为:

            >>>len(text3) / len(set(text3))   

 

1. Python3强制包含division,不需要import future。future模块中也不再包含division(除法)了。

2. Python3中的future模块不是_future_而是future,即使需要,也应为 from future...

 

function:

textname.concordance("word")                 索引(搜索)文本

textname.similar("word")                           索引上下文

textname.common_contexts["word","word"]     索引共用两个或两个以上词汇的上下文

textname.generate()                          以指定文本风格生成随机文本

len(textname)                                   统计标识符(包括标点符号)个数(即文本长度),重复单词也计数

set(texname)                                   获取文本词汇表(包括符号,同一单词计一次)

sorted(set(textname))        获取词汇表,词汇表以标点符号开始,随后是以a-z为顺序的词汇,大写排在小写前

len(set(textname))            统计文本第一无二的出现拼写形式,包括标点

textname.count("word")   统计文本中指定单词出现次数

 

code:

计算text3中每个单词的平均出现次数

>>> len(text3) / len(set(text3))
16.050197203298673

计算text4中a占单词百分比

>>> 100 * text4.count('a') / len(text4)
1.4643016433938312

使用函数替代重复劳动,输入空行即结束定义函数代码段

>>> def lexical_diversity(text):
	return len(text) / len(set(text))

>>> def percentage(count, total):
	return 100 * count / total

>>> lexical_diversity(text3)
16.050197203298673
>>> lexical_diversity(text5)
7.420046158918563
>>> percentage(4, 5)
80.0
>>> percentage(text4.count('a'), len(text4))
1.4643016433938312

 

words:

  • concordance

英 [kən'kɔːd(ə)ns]  美 [kən'kɔrdns]

n. 调和,一致;用语索引;著作或作家全集的重要用字索引

  • contexts

/ˈkɒntɛkst/

n. 环境,[计] 上下文(context复数)

  • semantic 

英 [sɪ'mæntɪk]       美 [sɪ'mæntɪk]

adj. 语义的;语义学的(等于semantical)

 

concepts:

  • 上下文

即语境、语意,是语言学科(语言学、社会语言学、篇章分析、语用学、符号学等)的概念。

  • 语意分析(semantic analysis)技术

系指将一长串的文字或内容,从其中分析出该个段落的摘要以及大意,甚至更进一步,将整篇文章的文意整理出来。此项技术可以应用在解读影片、音讯等档案,使得搜索引擎能够搜寻到文字以外的物件,方便使用者省去大量时间观看影片、聆听音讯,同时也可以帮助使用者提前了解影片与音讯的内容。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值