语料库与python应用 pdf文件_Python用于NLP :处理文本和PDF文件

234e32e901eb06bf3c8f17aa434ec3fe.png

提示:代码图片可以点击全屏查看,双指操作还可以放大缩小。

这是我的Python用于自然语言处理(NLP)系列文章的第一篇文章。在本文中,我们将从Python for NLP的基础知识开始。我们将看到如何使用Python处理简单的文本文件和PDF文件。

处理文本文件

文本文件可能是你在NLP工作中遇到的最基本类型的文件。在本节中,我们将了解如何用Python读取文本文件,创建文本文件以及将数据写入文本文件。

阅读文本文件

使用以下文本创建一个文本文件,并使用“.txt”扩展名将其保存在本地目录中。

930ccbc25aa3aaae9e0356f2eceb2fa6.png

在我的例子中,我将名为“myfile.txt”的文件存储在我的D盘根目录中。

阅读文件的所有内容

现在让我们看看我们如何阅读文件的全部内容。第一步是指定文件的路径,如下所示:

7938934ea82e43791e82ee0dd8baea6b.png

要打开文件,你可以使用Python的内置open函数。如果你执行上面的代码并且没有看到错误,则表示你的文件已成功打开。确保将文件路径更改为保存文本文件的位置。

现在让我们看看myfile变量中存储了什么:

655b3cbfbf085f1645fe42ba88a2938e.png

输出如下所示:

bb9dd1488200836f3255594d7fda9346.png

输出显示该myfile变量是myfile.txt文件的容器,并以只读模式打开文件。

如果指定了错误的文件路径,则可能会收到以下错误:

001bc97256ee345f5144e55fc2184837.png

b0293964f239b34269dc22830ce25935.png

每当你得到Errno 2时,可能有两个原因。你的文件不存在或者你给open函数提供了错误的文件路径。

现在,让我们读一下该文件的内容。为此,你需要在myfile变量上调用read()函数,如下所示:

05243d9b114d575b156a67f78739dabe.png

在输出中,你应该可以看到文件的文本,如下所示:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值