Python+MySQL获取PhishTank的钓鱼网站列表作业笔记

原创 2015年11月21日 10:24:45
仔细阅读PhishTank官方网站的开发者文档,了解API调用方法

1.注册账户,创建application并获取app_key

2.根据http://data.phishtank.com/data/<your app key>/online-valid.xml下载数据库导出文件.xml


于是便将问题转化为python解析xml大文件

Then  分别用xml.dom和xml.sax尝试去解析文档,均遇到相同问题:

xml.parsers.expat.ExpatError: not well-formed (invalid token): line 16519, column 83

xml.sax._exceptions.SAXParseException: online-valid.xml:16519:83: not well-formed (invalid token)

显然根据提示我们知道是xml文件中存在非法字符


接下来要解决的问题就是如何处理xml中的非法字符了(开启疯狂BG模式~~~

几番B搜无果,最后在G搜到类似的内容:

 

#!/usr/bin/python
# -*- coding:utf-8 -*-
 
import string
import xml.dom.minidom
 
def parse_xml(file_path):
    """
    Handle xml file with invalid character
    [input] : path of the xml file
    [output] : xml.dom.minidom.Document instance
    """
    try:
        xmldoc = xml.dom.minidom.parse(file_path)
    except:
        f = file(file_path)
        s = f.read()
        f.close()
 
        ss = s.translate(None, string.printable)
        s = s.translate(None, ss)
 
        xmldoc = xml.dom.minidom.parseString(s)
    return xmldoc
 
if __name__ == '__main__':
    pass


以纯文本当时读取文件,然后用字符串来处理,就能得到非法字符完全剔除的的结果了

 

于是作业也就可以愉快的进行下去啦






版权声明:本文为博主原创文章,未经博主允许不得转载。

 

版权声明:本文为博主原创文章,未经博主允许不得转载。

如何自己搭建钓鱼网站检测系统

0×01基本系统架构 随着电子商务、互联网金融的快速发展,在利益的驱使下,从事“钓鱼攻击”的黑产呈逐渐上升趋势。“钓鱼攻击”不仅对企业的品牌形象造成严重损害,还对用户的账户安全、甚至资金安全构成...
  • GarfieldEr007
  • GarfieldEr007
  • 2016年05月22日 17:21
  • 2261

一个局域网下钓鱼网站演示的设计思路

一般的公司会有OA系统,有一些操作需要在登录后才能执行,为了登录后能跳转到登录前的页面,OA的设计者有的就使用了类似backUrl=readInfp.html的设计,如果这种跳转没有经过 http:/...
  • ssergsw
  • ssergsw
  • 2013年09月30日 09:16
  • 1801

怎么监控、识别和关闭钓鱼网站?

目前在网银、支付、团购等领域出现了大量的钓鱼网站,有没有方式可以在线实时监控并发现可疑钓鱼网站的技术? 互联网上每时每刻都会有新的域名、新的网站诞生。就是这种的互联网的开放性,使得互联网世界...
  • kfysck
  • kfysck
  • 2014年05月22日 15:29
  • 2388

Python PhishTank爬取(钓鱼网站的使用)

最近在使用Python做网络爬虫,涉及到钓鱼网站的一些问题,或者说是使用Python爬取网站遇到的一些问题,Python语言中有很多强大的工具包,非常强大,在这里因为要爬取网页的内容,所以我选择的工具...
  • Danielntz
  • Danielntz
  • 2016年09月14日 16:58
  • 1494

钓鱼网站规则提取工作的python代码重写总结

0_originJson_writeURL_inTxt.py: import urllib.request import json origin_json_data = urllib.reques...
  • Pop_Rain
  • Pop_Rain
  • 2017年05月16日 17:07
  • 162

黑客教程:自建钓鱼网站入侵Gmail账户

本教程将展示黑客如何利用钓鱼方法黑掉Gmail——使用Gwapka发送受害者的密码、Gmail ID、浏览器和IP地址到入侵者的邮箱中。 Wapka简介 Wapka是免费的网站平台,可以免费托管网...
  • nani1114
  • nani1114
  • 2016年09月18日 13:39
  • 269

如何防范“信息泄露+钓鱼网站”典型网络诈骗模式

羊城晚报7日报道,不少市民向记者反映,他们在某网上购物商城注册了个人信息,并在该商城购物。岂料由于自己在该网站的个人信息被泄露,导致不少用户被骗,最多的一次被骗走12万元。 “信息泄露+钓鱼网站”...
  • liaoxj2046
  • liaoxj2046
  • 2015年05月13日 16:28
  • 594

五种方法教你鉴别山寨、欺诈和钓鱼网站

互联网是个很神奇的世界,你可以用它来做很多意想不到的事情。但是,和生活中的其他事物一样,这里也会存在危险。...
  • TrustAsia
  • TrustAsia
  • 2017年07月11日 09:35
  • 460

手把手教你如何识别钓鱼网站

今天打开hotmail.com,发现垃圾邮箱又有一封钓鱼网站的邮件,本来准备要随手删掉,可想到可能还有人不知道什么是钓鱼网站,那今天就手把手实例讲解一下,你的邮箱和银行密码是如何被盗的。 先...
  • a930716
  • a930716
  • 2013年07月24日 17:29
  • 914

全球钓鱼网站数量激增,交易、金融证券等行业成“重灾区”

《报告》指出,随着互联网的迅猛发展及其在各行业的深入渗透,其安全形势与挑战日趋严峻,网络钓鱼已成为威胁网络安全的突出问题且呈现严重化趋势,建议广大网民增强防范意识,共同营造健康安全的网络生态环境。...
  • TrustAsia
  • TrustAsia
  • 2017年06月23日 09:13
  • 484
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Python+MySQL获取PhishTank的钓鱼网站列表作业笔记
举报原因:
原因补充:

(最多只允许输入30个字)