前言
有些时候做漏洞验证的时候,需要统计漏洞页面有哪些特征码(比如svn这个词在这些网页中出现了多少次),手动的话不仅慢还浪费精力,于是用二十行代码实现寻找多个网站中出现的相同元素次数。
涉及知识点
- jieba分词
- collection的Counter
- Pretty格式化输出
工程逻辑
代码实例
import sys
import jieba
import random
import requests
from collections import Counter
from prettytable import PrettyTable
import time
import os
reload(sys)
sys.setdefaultencoding('utf-8')
搜索引擎分词
ll=[]
def scan(url):
try:
r = requests.get(url=url, headers=headers, timeout=5).content.decode("utf8","ignore").encode("gbk","ignore")
for x in jieba.cut_for_search(r,HMM=True):
ll.append(x)
except Exception, e:
print e
导入扫描网址并扫描分词
url_input = raw_input(unicode('请输入需要扫描的网址文本:','utf-8').encode('gbk'))
list_url = list(set([i.replace('\n','') for i in open(url_input,'r').readlines()]))
for url in list_url:
print 'Scan: '+(url)
scan(url)
</