python自然语言处理第三章习题

+:项目中的一个或多个实例
*:项目中的零个或多个实例  +和*有时被称作闭包

^:匹配字符串的开始
\s:匹配所有空白字符
\w:匹配词中的字符,字母,数字,下划线
\W:匹配所有字母、数字、下划线以外的字符
\S:是\s的补
\b:词边界(零宽度)
\d:任一十进制数字
\D:任何非数字字符
\t:制表符
8.编写一个工具函数,以url为参数,返回删除所有HTML标记的URL内容。使用那个url.urlopen访问的url内容,例如:raw_contents=urllib.urlopen('http://www.nltk.org/').read().
 

from urllib import urlopen
import re
def content(url):
raw_contents=urlopen('http://www.nltk.org/').read()
return re.findall(r'<.*>(.*)<.*>{1,},raw_contents)

9.将一些文字保存到文件corpus.txt。定义一个函数load(f)以要读取的文件名为唯一参数,返回包含文件中文本的字符串。
a.使用nltk.regexp_tokenize()创建一个分词器分割这个文本中的各种标点符号。使用一个多行的正则表达式,行内要有注释,使用verbose标志(?x)。
import nltk
def load(file):
f=open(file)
return f.read()

content=load('corpus.txt')
pattern=r'''(?x)
\w*(\.|\,|\?|\:|\;)'''
nltk.regexp_tokenize(content,pattern)
b.使用nltk.regexp_tokenize()创建一个分词器,分割以下几种表达式。货币金额;日期;个人和组织的名称。
 

import nltk
text="The book is $5"
pattern=r'''(?x)
(\$\d)|([A-Z][a-z]{1,})'''
nltk.regexp_tokenize(text,pattern)

10.将先面的循环改为链表推导。
 

sent=['The','dog','gave','John','the','newspaper']
result=[]
for word in sent:
word_len=(word,len(word))
result.append(word_len)
result
[('the',3),('dog',3),('gave',4),('John',4),('the',3),('newspaper',9)]

sent=['The','dog','gave','John','the','newspaper']
result=[]
[(word,len(word) for word in sent]
11.定义一个字符串raw包含你自己选择的句子。现在,分裂raw的一些字符以外的空间,例如:‘s'。
 

sorry,I don't understand the meaning of the problem.But I think it is easy to solve.So,I didn't solve it.

12.编写一个for循环输出一个字符串的字符,每行一个。
 

string='this is a string'

for w in string:

print w

18.阅读语料库中的一些文字,为它们分词,输出其中出现的所有wh-类型词的列表。按顺序输出他们。在这个列表中含有因大小写或标点符号而重复的词吗?
 

from nltk.corpus import brown
pattern=r'''(?x)
(wh[a-z]{1,})|(Wh[a-z]{1,})'''
text=nltk.Text(brown.word(categories='news'))
test=str(text[300:1000])
nltk.regexp_tokenize(test,pattern)

19.创建一个文件,包含词汇和频率,其中每一行包含一个词,一个空格和一个整数。如:fuzzy 53.使用open(filename).readline()将文件读入python链表。接下来,使用split()将每一行分成两个字段,并使用int()将其中的数字转换为整数。
 

sents=[sent[i].split() for i in range(8)]
words=[[sents[i][0],int(sents[i][1])] for i in range(8)]

20.编写代码以访问喜爱的网页,并从中提取一些文字。例如:访问一个天气网站,提取你所在的城市今天的最高温度。
 

from urllib import urlopen

url='http://www.weather.com.cn/weather/101020100.shtml'

html=urlopen(url).read()

pattern=r'''(?x)....................'''

nltk.regexp_tokenize(html,pattern)

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
随着国家大数据战略的深入实施,各行业智慧化建设急需数据分析人才和智能应用人才。智慧化简单来说是一个以机器替换人力的过程,而机器的“灵魂”是程序。Python已经成为公认的驱动大数据智能应用的主流编程语言。Python程序设计的书籍已经琳琅满目,每一本书都凝聚了作者对Python的理解和对程序设计的认识,都是作者编程开发和教学经验的总结,都折射出作者的专业背景。由于大数据专业学生对程序设计的要求不是很高,但又需要具备一定的计算思维能力,熟悉用程序进行数据分析的一般流程,因此程序设计教材要言不甚深、文不甚俗,既要覆盖相关技术,又不能面面俱到,注重对问题的分析和解释,用程序表达算法。鉴于此,我们编写了本书。 本书每一章的标题都以Python开头,凸显Python在各个部分都有其独特的编程理念和方法。与其他高级编程语言如C、C++和Java等相比,Python在数据的表示、处理和可视化方面都有绝对的优势。有编程基础的学习者在学习Python时最好能忘掉以往程序设计语言的语法,彻底转变观念,以全新的姿态融入到Python的编程特点和规律之中。如变量定义、数据类型、数据结构、控制结构、类和对象、文件访问、数据分析和可视化,每一部分都有其特别之处,都值得我们重新认识,重新使用,重新熟悉。每一章开始的思维导图都是对本章技术脉络的梳理,开门见山地给学习者展示本章的知识和技术体系,以便学习者在学习过程中始终能保持思路清晰和整体把握。每一章开头的本章导读都是编者多年来程序开发与设计教学经验的提炼与升华,都是对程序设计的理解和感悟,值得学习者深入领会。每一章开头的本章要点都是要求学习者深入理解的重要知识和熟练掌握的关键技术。每一章的小结都是对本章要点的具体解释,供学习者复习查询。 本书为河北省高等教育教学改革研究与实践项目“新工科背景下警务大数据应用专业人才培养模式与教学实践研究”(编号:2018GJJG450)的阶段性成果。 下面是本书的体系结构图。 第1章Python编程初步。学习本章,要了解Python作为一种计算机程序设计脚本语言,结合了解释性、编译性和互动性的特点;了解在Linux和Windows中安装Python的方法;了解IDLE、PyCharm和Jupyter三种常用Python程序编辑环境。工欲善其事,必先利其器,通过对本章的学习,学习者可拥有一个强大的编程工具,从此开启数据分析编程之旅。 第2章Python语言基础。Python作为一门与计算机交流的编程语言,有着跟自然语言相似的特点:字、词、句、段落、篇章,以及相应的行文语法规则。学习本章,要理解程序行文的字词句,主要包括基本数据类型、常量和变量、运算符和表达式;理解程序的段落和篇章,主要包括常用内置函数、库函数和系统函数的使用;掌握程序的语法规则,主要包括常用的变量定义和标识符命名规则、语句组织成文编码规则等。这些都是程序设计的基础,学习者只有对此熟练掌握后,才能在后续的学习中得心应手。 第3章Python组合数据类型。组合数据类型是Python语言区别于其他高级编程语言的一大特色,通过组合数据类型,省去了其他语言各种复杂数据结构的设计,给编程人员带来了极大的方便,这也是Python流行于数据分析领域的原因之一。学习本章,要熟练掌握Python组合数据类型(列表、元组、字符串、字典、集合)的创建、访问和常见基本操作,以及序列解包功能。 第4章 Python控制结构。针对物质随时间由简单向复杂、由低级向高级发展的顺序,Python语言有相应的顺序结构语句;针对物质运动发展的条件性,Python语言有相应的选择结构语句;针对物质运动的波浪式前进螺旋式上升规律,Python语言有相应的循环结构语句。学习本章,要从马克思主义自然哲学视角理解Python语言在描述物质运动规律时的表达方式;掌握用Python语言描述常用算法,解决一些基本问题的方式。 第5章 Python函数与模块。有些经常用到的能实现特定功能的代码块,我们总是不希望每次用到时都重写一遍,甚至不希望复制一遍,但又想重复使用。Python里这些经常重用的代码块以函数(Function)的形式被定义,每一次复用被称为函数调用,计算机依然要执行重用的代码。学习本章,要理解函数的概念,掌握定义函数的方法,深刻理解函数调用中参数的传递(值传递、地址传递),理解变量的作用域(变量的作用范围或变量的生命周期),理解函数集合模块、包等概念,掌握模块和包的创建及使用方法。 第6章 Python面向对象程序设计。面向过程的程序设计方法难以保证程序的安全性和代码的可重用性,而面向对象的程序设计方法能够更好地提高大型程序的质量和开发效率,增强程序的安全性和提高代码的可重用性。学习本章,重在理解面向对象程序设计思想、类和对象的概念

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值