![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python自然语言处理
SherryLovesCoding
这个作者很懒,什么都没留下…
展开
-
第一章-语言处理与Python(Natural Language Processing with Python第二版)
探索的问题1.通过结合简单的编程技巧和大量的文本,我们能实现什么?2.怎么自动提取能代表文章的风格和内容的关键词和短语?3.Python这个编程语言为这些工作可以提供哪些工具和技巧?4.自然语言处理有哪些有趣的挑战?NLTK安装https://blog.csdn.net/LOVEYSUXIN/article/details/73480647Numpy安装https://blog.c...原创 2019-05-14 19:57:15 · 890 阅读 · 0 评论 -
第十章-分析句子的含义(还需要进行小的修改)
我们已经看到,利用计算机的能力大规模处理文本是多么有用。然而,现在我们有了解析器和基于特征的语法,通过分析句子的意思,我们能做些类似的有用的事情吗?本章的目的是回答以下问题:我们如何表示自然语言的意义,使计算机能够处理这些表示?我们如何将意义表示与无限组句子联系起来?我们如何使用程序将句子的意思表示与知识存储联系起来?在此过程中,我们将学习逻辑语义领域的一些正式技术,看看这些数据是如何被用...原创 2019-05-29 19:46:16 · 515 阅读 · 0 评论 -
第九章-构建基于特征的语法
自然语言具有广泛的语法结构,使用第八章中描述的简单方法很难处理。为了获得更大的灵活性,我们改变了对S,NP和V等语法范畴的处理。代替原子标签,我们将它们分解为像字典这样的结构,其中的特征可以采用一系列值。为了获得更大的灵活性,我们改变了对S,NP和V等语法范畴的处理。代替原子标签,我们将它们分解为像字典这样的结构,其中的特征可以采用一系列值。本章的目标是回答以下问题:我们如何扩展具有特征的上下...原创 2019-05-15 19:01:22 · 401 阅读 · 0 评论 -
第八章-分析句子结构
前面的章节侧重于单词:如何识别它们,分析它们的结构,将它们分配到词汇类别,以及访问它们的含义。我们还看到了如何识别单词序列或n-gram中的模式。然而,这些方法只是划分了控制句子的复杂约束的表面。我们需要一种方法来处理自然语言闻名的模糊性。我们还需要能够应对无限数量的可能句子这一事实,我们只能编写有限的程序来分析它们的结构并发现它们的含义。本章的目标是回答以下问题:我们如何使用正式语法来描述无...原创 2019-05-15 19:00:13 · 3608 阅读 · 0 评论 -
第七章-从文本中提取信息
对于任何给定的问题,都可能有人在某处写下了答案。以电子形式提供的自然语言文本数量确实惊人,而且每天都在增加。然而,自然语言的复杂性使得获取文本中的信息非常困难。NLP的技术水平离从无限制的文本构建通用意义表示还有很长的路要走。如果我们把精力集中在有限的一系列问题或“实体关系”上,比如“不同的设施在哪里”或“哪家公司雇用了谁”,我们就能取得重大进展。本章的目标是回答以下问题:1.如何构建一个从非结...原创 2019-05-15 18:56:35 · 4053 阅读 · 0 评论 -
第六章 -文本分类
6.1 监督分类本章问题1.我们应该如何识别语言数据中对特征分类非常重要的特殊特征?2.我们如何构建可以用来自动执行语言处理任务的语言模型?3.我们能从这些模型中学习到关于语言的什么内容?分类任务的例子?1.决定邮件是不是垃圾邮件2.决定一个文章是哪个话题区域下的?例如:运动,科技,政治3.确定一个出现的单词"bank"是不是指"river bank"还是指一个金融机构(银行)...原创 2019-05-15 18:53:39 · 248 阅读 · 0 评论 -
第五章-对单词进行分类和标记
本章的回答的问题:1.什么是词汇分类,他们在自然语言处理中是怎么用的?2.什么是用于存储单词及其类别的良好Python数据结构?3.如何使用文本的word类自动标记文本中的每个单词?在此过程中,我们将介绍NLP中的一些基本技术,包括序列标记、n-gram模型、后退和评估。这些技术在许多领域都很有用,而标记为我们提供了一个展示它们的简单上下文。我们还将看到标记是典型的NLP管道中的第二...原创 2019-05-15 18:28:34 · 1853 阅读 · 0 评论 -
第四章-编写结构化程序(Natural Language Processing with Python第二版)
第四章 编写结构化程序1.如何编写结构良好、可读性强的程序以能够方便地重用?2.基本构建块是如何工作的,比如循环、函数和赋值?3.Python编程有哪些陷阱,您如何避免它们?4.1 回归基础1) 赋值2) 等于3) 条件4.2 序列1)2)组合不同类型的序列words = 'I turned off the spectroroute'.split()wordlens = [...原创 2019-05-15 18:25:20 · 392 阅读 · 0 评论 -
第三章-处理原始文本(Natural Language Processing with Python第二版)
研究的问题为了获得无限范围的语言材料我们如何编写程序来从本地文件和Web中访问文本?我们如何将文档分割成单独的单词和标点符号,所以我们可以进行和前几章一样的文本语料库分析?3.我们如何编写程序来生成格式化的输出并将其保存在文件中?从Web和磁盘访问文本1.电子图书1) raw text获取和类型处理1.从Gutenberg读取txt文件(太大读不出来,读本地的代替了,读出是字符...原创 2019-05-14 20:14:25 · 561 阅读 · 0 评论 -
第二章-获取文本语料和词汇资源(Natural Language Processing with Python第二版)
探索的问题1.什么是一些有用的文本语料库和词汇资源,我们如何通过Python访问他们?2.哪种Python构造对这项工作(NLP)最有用3.在编写Python代码时如何避免重复?本章将继续通过在语言处理任务的上下文中的例子介绍编程概念,我们将等到稍后再系统地研究每个Python构造。如果您看到一个不熟悉的示例,请不要担心;简单地尝试一下,看看它能做什么,如果你有兴趣的话,通过用不同的文本或...原创 2019-05-14 20:07:39 · 287 阅读 · 0 评论