PhishTank 提供了大量的钓鱼网站,下面我说一下自己获取phishTank的方法。
phishTank提供了以下几种接口,接口key需要自己注册获取。
我使用的是:http://data.phishtank.com/data/online-valid.csv这种格式。
把爬取到的网站以时间格式命名存在了E盘下。
url="http://data.phishtank.com/data/your app key/online-valid.csv"
page = urllib2.urlopen(url)
content = page.read()
target_dir = 'E:\\URL\\'
f = file(target_dir + time.strftime('%Y %m %d') + '.txt',"w+")
f.write(content)