爬取某网站的所有乌云漏洞文章，保存为pdf文件

最新推荐文章于 2024-06-28 19:31:29 发布

silence cc

最新推荐文章于 2024-06-28 19:31:29 发布

阅读量1.2k

点赞数 1

分类专栏：爬虫

本文链接：https://blog.csdn.net/qq_19339041/article/details/81322629

版权

本文档介绍了如何爬取一个网站上的所有乌云漏洞文章，并将其保存为PDF格式，以便于学习和参考。操作过程中，首先创建了一个名为'wooyun'的文件夹，然后将爬虫代码存入名为'test.py'的文件，执行后得到预期结果。

摘要由CSDN通过智能技术生成

鼎鼎大名的乌云，存在了6年左右，就停摆了，真是可惜。。。

这是从某个网站看到的乌云文章，爬取保存下来以作学习使用

创建一个文件夹wooyun，把下面的代码保存到一个文件如test.py，放在该文件里面

# -*- coding: utf-8 -*-
import urllib2
import pdfkit
from lxml import etree
import time
import random
import os
import shutil


def modify_filename(file1,file2,filename,m):
   '''
   更改文件名函数
   如有多个同名文件，自动在文件名末尾加上数字，从2开始。
   方法递归

   '''
   if os.path.exists(file2):
        m += 1
        file2 = filename + str(m) + '.pdf'
        modify_filename(file1,file2,filename,m)
   else:
        os.rename(file1,file2)
        return

def main():

最低0.47元/天解锁文章

silence cc

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
爬取某网站的所有乌云漏洞文章，保存为pdf文件

鼎鼎大名的乌云，存在了6年左右，就停摆了，真是可惜。。。这是从某个网站看到的乌云文章，爬取保存下来以作学习使用创建一个文件夹wooyun，把下面的代码保存到一个文件如test.py，放在该文件里面# -*- coding: utf-8 -*-import urllib2import pdfkitfrom lxml import etreeimport timeimport r...
复制链接

扫一扫

专栏目录