Python
Word_One12580
很高兴你能来,不遗憾你走开!
展开
-
Python3使用xpath爬取百度文库PPT文档
Python3通过xpath爬取百度文库上的PPT文档准备工作源代码准备工作具体的准备工作可参考笔者的另一篇博客:Python3使用xpath爬原创力文档,两者原理相同。1.首先,随便进入百度文库的一篇PPT文档(记得一定要点开记得阅读,加载出所有画面,才能爬取完整文档)。2.接着,进入网页源代码,同样找出src的地址。然后,根据个人喜好复制指定部分的网页源码(但一定要包含下载内容)到TXT文件中。3现在,我们就可以开始爬取了。源代码"""爬取百度文库上的PPT文档"""impor原创 2020-09-03 16:32:07 · 1770 阅读 · 0 评论 -
Python3使用xpath爬原创力文档
Python3使用xpath爬原创力文档准备工作源代码准备工作首先,我们进入原创力文档官网,随便点击一篇pdf文章,进入如下界面:然后点击“好的,开始阅读”进入全屏界面。接着,按“F12”进入开发者工具;点击开发者界面左上角的箭头符号,选择第一页,开发者工具界面则会定位相应的HTML标签处;定位的光标处中src中的“//view-cache.book118.com/view10/M00/1A/32/wKh2Dl9Df5SAcs8-AADV0nCN1hY314.png”则是我们后续下载需要的URL地址原创 2020-09-03 16:32:22 · 3986 阅读 · 5 评论