2024年最新Python用于NLP :处理文本和PDF文件_提取pdf 转nlp,2024年最新字节跳动Python内部面试题

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、学习软件

工欲善其事必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

四、入门学习视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

五、实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

六、面试资料

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

输出如下所示:

输出显示该myfile变量是myfile.txt文件的容器,并以只读模式打开文件。

如果指定了错误的文件路径,则可能会收到以下错误:

每当你得到Errno 2时,可能有两个原因。你的文件不存在或者你给open函数提供了错误的文件路径。

现在,让我们读一下该文件的内容。为此,你需要在myfile变量上调用read()函数,如下所示:

在输出中,你应该可以看到文件的文本,如下所示:

现在,如果你尝试再次调用read,控制台上将不会打印任何内容:

这是因为一旦调用该read方法,光标就会移动到文本的末尾。因此,当你再次调用read时,不会显示任何内容,因为已经没有更多要打印的文本了。

一个解决这个问题的方案就是在调用read()方法之后,调用seek()方法并使用0作为参数。

这会将光标移回文本文件的开头。查看以下代码以了解其工作原理:

在输出中,你将看到文本内容被打印了两次。

一旦完成文件处理后,关闭文件以便其他应用程序可以访问显得非常重要。为此,你需要调用close()方法。

逐行读取文件

我们也可以逐行读取文件内容,而不是一次读取文件的所有内容。为此,我们需要执行readlines()方法,该方法可以将文本文件中的每一行作为列表项返回。

在输出中,你将看到文本文件中的每一行都变为了列表项:

在多数情况下,这会使文本更容易相处。例如,我们现在可以轻松遍历每一行并打印行中的第一个单词。

输出如下所示:

写入文本文件

要写入文本文件,只需在打开文件时将打开模式设置为w或w+。前者在写入模式下打开文件,后者在读取和写入模式下打开文件。如果该文件不存在,则会创建该文件。值得一提的是,如果你以w或w+模式打开一个文件时,则将移除所有的文件内容,如下所示:

在输出中,由于使用w+模式打开文件,因此屏幕上不会显示任何内容,文件的所有内容都已被删除。你可以附加文字来避免这种情况,我也会在下面提到。

现在,让我们使用write()方法在文件中写一些内容。

在上面的脚本中,我们将文本写入文件,然后调用seek()方法将光标移回开始,然后调用read方法读取文件的内容。在输出中,你将看到新添加的内容,如下所示:

通常,你不需要删除文件的现有内容。相反,你可能需要在文件末尾添加内容。

为此,你需要以a+模式打开文件,该模式能够添加和读取文件内容。

再次创建一个包含以下内容的文件,并在D盘根目录中将其保存为“myfile.txt”:

执行以下脚本以使用添加模式打开文件:

在输出中,你将看到文件的内容。

接下来,让我们在文件中添加一些文本。

现在我们再次阅读文件内容:

在输出中,你将在文末看到新添加的行,如下所示:

最后,在继续下一节之前,让我们看看在执行所需操作后如何使用上下文管理器自动关闭文件。

使用with关键字,如上所示,你不需要明确关闭文件。相反,上面的脚本打开文件,读取内容,然后自动关闭它。

处理PDF文件

除了文本文件,我们还经常需要使用PDF文件来执行不同的自然语言处理任务。默认情况下,Python没有任何可用于读取或写入PDF文件的内置库。但是我们可以使用PyPDF2库。

在我们使用PyPDF2库之前,需要安装它。如果你使用pip安装程序,则可以使用以下命令安装PyPDF2库:

或者,如果你使用的是Anaconda环境中的Python,则可以在conda命令提示符下执行以下命令:

注意:这里需要提到的是PDF文档可以从不同的来源创建,如word文档,图像等。在本文中,我们将只处理使用word文档创建的PDF文档。对于使用图像创建的PDF文档,还有其他专门的库,我将在后面的文章中解释。目前,我们只使用使用word文档生成的PDF文档。

作为可以使用的虚拟文档,你可以从以下链接下载PDF:http://www.bavtailor.com/wp-content/uploads/2018/10/Lorem-Ipsum.pdf

将下载的文档保存在D盘根目录下。

阅读PDF文档

要阅读PDF文档,首先,我们必须要像其他普通文件一样打开它。使用以下脚本:

值得一提的是,在打开PDF文件时,必须将模式设置为“读取二进制”的rb模式,因为大多数PDF文件都是二进制格式。

打开文件后,我们需要调用PyPDF2库中的PdfFileReader()函数,如下所示:

现在使用pdf_document变量,我们可以执行各种读取功能。例如,要获取PDF文档中的总页数,我们可以使用以下numPages属性:

由于我们只有一页文档,在我们的PDF文档中,你将在结果中看到1。

最后,要从PDF文档中提取文本,首先需要使用getPage()函数获取PDF文档的页面。

接下来,你可以调用extractText()函数从特定页面中提取文本。

以下脚本从PDF的第一页中提取文本,然后将其打印在控制台上。

在结果中,你应该看到PDF第一页中的文本。

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友,可以戳这里获取

一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 9
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值