python爬取某SRC网站的漏洞标题

python爬取某SRC网站的漏洞标题

免责申明

由于传播、利用文章内的相关技术从事非法测试,如因此产生的一切不良后果与文章作者无关。

版本说明

(1)某src标题提取。
(2)可用于信息收集。
'''
版本:V1.0
    (1)某src标题提取
    (2)可用于信息收集
    
免责申明:由于传播、利用文章内的相关技术从事非法测试,如因此产生的一切不良后果与文章作者无关。
'''

import requests,time
from lxml import etree

def edu_list(page):
    for page in range(1,page+1):
        try:
            url='https://src.sjtu.edu.cn/list/?page='+str(page)
            print("--------正在提取第 "+str(page)+" 页----------")
            data=requests.get(url).content
            #print(data)
            soup = etree.HTML(data.decode('utf-8'))
            # print(soup)
            result = soup.xpath('//td[not(@*)]/a/text()')  #//td[not(@*) 是用于匹配所有]
            # print(result)
            results = '\n'.join(result)
            resultss=results.split()
            # print(resultss)
            for edu in resultss:
                print(edu)
                with open(r'src.txt', 'a+',encoding='utf-8') as f:
                    f.write(edu+'\n')
                    f.close()
        except Exception as e:
            time.sleep(0.5)
            pass

if __name__ == '__main__':
    edu_list(10)


运行截图

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值