《Python进行自然语言处理》代码笔记(一):第一章示例

   利用空余时间,将《用Python进行自然语言处理》的前面几章内容都敲了一遍,其中遇到与书中示例不太一致的地方也进行了修改。第一章示例如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author  : Peidong
# @Site    : 
# @File    : eg1.py
# @Software: PyCharm
"""
the first example for nltk book
"""
from nltk.book import *


# 查找特定词语上下文
text1.concordance("monstrous")

# 相关词查找
text1.similar("monstrous")

# 查找多个词语的共同上下文
text2.common_contexts(["monstrous", "very"])

# 画出词语的离散图
text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])

# 产生随机文本
text3.generate()
Traceback (most recent call last):
  File "E:/nlp/eg1.py", line 25, in <module>
    text3.generate()
TypeError: generate() missing 1 required positional argument: 'words'

# 单词数量 标识符总数
print(len(text3))

# 词汇的种类及数量 用集合set显示
print(sorted(set(text3)))
print(len(set(text3)))

# 测量平均每类词语被使用的次数
from __future__ import division #本命令必须放在文件的开始之初
print(len(text3)/len(set(text3)))

# 统计特定单词在文本中出现的次数,并计算其占比
print(text3.count("smote"))
print(100*text4.count('a')/len(text4))

# # 词的频率分布
fdist1 = FreqDist(text1)
# # 输出总的词数
print(fdist1)
# In Python 3 dict.keys() returns an iteratable but not indexable object.
vac1 = list(fdist1.keys())
# # 输出词数最多的前五十个词
print(vac1[:50])
# # 输出whale的次数
print(fdist1["whale"])
# # 输出前五十个词的累积频率图

fdist1.plot(50)

# 查找长度超过15个字符的词
V = set(text1)
long_words = [w for w in V if len(w)>15]
print(sorted(long_words))

# 查找长度超过7的词且频率超过7
fdist5 = FreqDist(text5)
print(sorted([ w for w in set(text5) if len(w)>7 and fdist5[w]>7]))

# 双连词的使用
from nltk import bigrams
# # 查了一下nltk官网上的函数说明,要加list()函数,结果才是书上的情况
print(list(bigrams(['more', 'is', 'said', 'than', 'done'])))

# 文本中常用的连接词
print(text4.collocations())

print([len(w) for w in text1])
fdist = FreqDist([len(w) for w in text1])
print(fdist)
print(fdist.keys())
print(fdist.items())
print(fdist.max())
print(fdist[3])
print(fdist.freq(3))

print(sorted([w for w in set(text1) if w.endswith('ableness')]))

print(babelize_shell())


本书围绕数据的表示、存取、计算、分析和可视化等内容分两部分详细介绍Python语言程序设计:Python程序设计基础部分(第1章至第6章、第10章)主要介绍Python作为一门高级编程语言所涉及的语法知识、控制结构、函数与模块、类和对象、图形界面设计,并穿插了计数、累加、连乘等数值计算常用算法内容;Python数据管理与分析部分(第7章至第9章、第11章)主要介绍数据文件操作、数据库操作、数据分析和数据可视化等知识。 本书按照首先论道、继而论理、然后操作的顺序,从哲学视角看程序设计,使读者在认识物质世界规律的过程中了解计算机的特点、程序设计的特点和人机交互的规律,在认识世界、解释世界和改造世界的实践中掌握Python编程特点、技术和技巧,学会结构化程序设计、面向对象程序设计、人机交互界面设计和数据分析等方面的编程技术。 本书可供大数据专业学生学习程序设计使用,也可作为高等院校“Python程序设计”课程教材,还可供数据分析人员参考。 内容实用——理论与实践结合,重点突出应用 体系完善——构建完整的大数据专业解决方案 产教融合——高校企业共参与,对标行业标准 资源丰富——微课、课件、教案、源码、答案 随着国家大数据战略的深入实施,各行业智慧化建设急需数据分析人才和智能应用人才。智慧化简单来说是一个以机器替换人力的过程,而机器的“灵魂”是程序。Python已经成为公认的驱动大数据智能应用的主流编程语言。Python程序设计的书籍已经琳琅满目,每一本书都凝聚了作者对Python的理解和对程序设计的认识,都是作者编程开发和教学经验的总结,都折射出作者的专业背景。由于大数据专业学生对程序设计的要求不是很高,但又需要具备一定的计算思维能力,熟悉用程序进行数据分析的一般流程,因此程序设计教材要言不甚深、文不甚俗,既要覆盖相关技术,又不能面面俱到,注重对问题的分析和解释,用程序表达算法。鉴于此,我们编写了本书。 本书每一章的标题都以Python开头,凸显Python在各个部分都有其独特的编程理念和方法。与其他高级编程语言如C、C++和Java等相比,Python在数据的表示、处理和可视化方面都有绝对的优势。有编程基础的学习者在学习Python时最好能忘掉以往程序设计语言的语法,彻底转变观念,以全新的姿态融入到Python的编程特点和规律之中。如变量定义、数据类型、数据结构、控制结构、类和对象、文件访问、数据分析和可视化,每一部分都有其特别之处,都值得我们重新认识,重新使用,重新熟悉。每一章开始的思维导图都是对本章技术脉络的梳理,开门见山地给学习者展示本章的知识和技术体系,以便学习者在学习过程中始终能保持思路清晰和整体把握。每一章开头的本章导读都是编者多年来程序开发与设计教学经验的提炼与升华,都是对程序设计的理解和感悟,值得学习者深入领会。每一章开头的本章要点都是要求学习者深入理解的重要知识和熟练掌握的关键技术。每一章的小结都是对本章要点的具体解释,供学习者复习查询。 本书为河北省高等教育教学改革研究与实践项目“新工科背景下警务大数据应用专业人才培养模式与教学实践研究”(编号:2018GJJG450)的阶段性成果。 下面是本书的体系结构图。 第1章Python编程初步。学习本章,要了解Python作为一种计算机程序设计脚本语言,结合了解释性、编译性和互动性的特点;了解在Linux和Windows中安装Python的方法;了解IDLE、PyCharm和Jupyter三种常用Python程序编辑环境。工欲善其事,必先利其器,通过对本章的学习,学习者可拥有一个强大的编程工具,从此开启数据分析编程之旅。 第2章Python语言基础。Python作为一门与计算机交流的编程语言,有着跟自然语言相似的特点:字、词、句、段落、篇章,以及相应的行文语法规则。学习本章,要理解程序行文的字词句,主要包括基本数据类型、常量和变量、运算符和表达式;理解程序的段落和篇章,主要包括常用内置函数、库函数和系统函数的使用;掌握程序的语法规则,主要包括常用的变量定义和标识符命名规则、语句组织成文编码规则等。这些都是程序设计的基础,学习者只有对此熟练掌握后,才能在后续的学习中得心应手。 第3章Python组合数据类型。组合数据类型是Python语言区别于其他高级编程语言的一大特色,通过组合数据类型,省去了其他语言各种复杂数据结构的设计,给编程人员带来了极大的方便,这也是Python流行于数据分析领域的原因之一。学习本章,要熟练掌握Python组合数据类型(列表、元组、字符串、字典、集合)的创建、访问和常见基本操作,以及序列解包功能。 第4章 Python控制结构。针对物质随时间由简单向复杂、由低级向高级发展的顺序,Python语言有相应的顺序结构语句;
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值