problem:
- 缺少的包可以使用 pip install packagename 安装
- 需要升级的则使用 pip install --upgrade packagename
packagename:NumPy,Matplotlib,future
-
P8:>>>from _future_ import division
>>>len(text3) / len(set(text3))
应改为:
>>>len(text3) / len(set(text3))
1. Python3强制包含division,不需要import future。future模块中也不再包含division(除法)了。
2. Python3中的future模块不是_future_而是future,即使需要,也应为 from future...
function:
textname.concordance("word") 索引(搜索)文本
textname.similar("word") 索引上下文
textname.common_contexts["word","word"] 索引共用两个或两个以上词汇的上下文
textname.generate() 以指定文本风格生成随机文本
len(textname) 统计标识符(包括标点符号)个数(即文本长度),重复单词也计数
set(texname) 获取文本词汇表(包括符号,同一单词计一次)
sorted(set(textname)) 获取词汇表,词汇表以标点符号开始,随后是以a-z为顺序的词汇,大写排在小写前
len(set(textname)) 统计文本第一无二的出现或拼写形式,包括标点
textname.count("word") 统计文本中指定单词出现次数
code:
计算text3中每个单词的平均出现次数
>>> len(text3) / len(set(text3))
16.050197203298673
计算text4中a占单词百分比
>>> 100 * text4.count('a') / len(text4)
1.4643016433938312
使用函数替代重复劳动,输入空行即结束定义函数代码段
>>> def lexical_diversity(text):
return len(text) / len(set(text))
>>> def percentage(count, total):
return 100 * count / total
>>> lexical_diversity(text3)
16.050197203298673
>>> lexical_diversity(text5)
7.420046158918563
>>> percentage(4, 5)
80.0
>>> percentage(text4.count('a'), len(text4))
1.4643016433938312
words:
- concordance
英 [kən'kɔːd(ə)ns] 美 [kən'kɔrdns]
n. 调和,一致;用语索引;著作或作家全集的重要用字索引
- contexts
/ˈkɒntɛkst/
n. 环境,[计] 上下文(context复数)
- semantic
英 [sɪ'mæntɪk] 美 [sɪ'mæntɪk]
adj. 语义的;语义学的(等于semantical)
concepts:
- 上下文
即语境、语意,是语言学科(语言学、社会语言学、篇章分析、语用学、符号学等)的概念。
- 语意分析(semantic analysis)技术
系指将一长串的文字或内容,从其中分析出该个段落的摘要以及大意,甚至更进一步,将整篇文章的文意整理出来。此项技术可以应用在解读影片、音讯等档案,使得搜索引擎能够搜寻到文字以外的物件,方便使用者省去大量时间观看影片、聆听音讯,同时也可以帮助使用者提前了解影片与音讯的内容。