这是我的Python用于自然语言处理(NLP)系列文章的第一篇文章。在本文中,我们将从Python for NLP的基础知识开始。我们将看到如何使用Python处理简单的文本文件和PDF文件。
处理文本文件
文本文件可能是你在NLP工作中遇到的最基本类型的文件。在本节中,我们将了解如何用Python读取文本文件,创建文本文件以及将数据写入文本文件。
阅读文本文件
使用以下文本创建一个文本文件,并使用“.txt”扩展名将其保存在本地目录中。
在我的例子中,我将名为“myfile.txt”的文件存储在我的D盘根目录中。
阅读文件的所有内容
现在让我们看看我们如何阅读文件的全部内容。第一步是指定文件的路径,如下所示:
要打开文件,你可以使用Python的内置open函数。如果你执行上面的代码并且没有看到错误,则表示你的文件已成功打开。确保将文件路径更改为保存文本文件的位置。
现在让我们看看myfile变量中存储了什么:
输出如下所示:
输出显示该myfile变量是myfile.txt文件的容器,并以只读模式打开文件。
如果指定了错误的文件路径,则可能会收到以下错误:
每当你得到Errno 2时,可能有两个原因。你的文件不存在或者你给open函数提供了错误的文件路径。
现在,让我们读一下该文件的内容。为此,你需要在myfile变量上调用read()函数,如下所示: