python爬取某SRC网站的漏洞标题
免责申明
由于传播、利用文章内的相关技术从事非法测试,如因此产生的一切不良后果与文章作者无关。
版本说明
(1)某src标题提取。
(2)可用于信息收集。
'''
版本:V1.0
(1)某src标题提取
(2)可用于信息收集
免责申明:由于传播、利用文章内的相关技术从事非法测试,如因此产生的一切不良后果与文章作者无关。
'''
import requests,time
from lxml import etree
def edu_list(page):
for page in range(1,page+1):
try:
url='https://src.sjtu.edu.cn/list/?page='+str(page)
print("--------正在提取第 "+str(page)+" 页----------")
data=requests.get(url).content
#print(data)
soup = etree.HTML(data.decode('utf-8'))
# print(soup)
result = soup.xpath('//td[not(@*)]/a/text()') #//td[not(@*) 是用于匹配所有]
# print(result)
results = '\n'.join(result)
resultss=results.split()
# print(resultss)
for edu in resultss:
print(edu)
with open(r'src.txt', 'a+',encoding='utf-8') as f:
f.write(edu+'\n')
f.close()
except Exception as e:
time.sleep(0.5)
pass
if __name__ == '__main__':
edu_list(10)