Python+MySQL获取PhishTank的钓鱼网站列表作业笔记

原创 2015年11月21日 10:24:45
仔细阅读PhishTank官方网站的开发者文档,了解API调用方法

1.注册账户,创建application并获取app_key

2.根据http://data.phishtank.com/data/<your app key>/online-valid.xml下载数据库导出文件.xml


于是便将问题转化为python解析xml大文件

Then  分别用xml.dom和xml.sax尝试去解析文档,均遇到相同问题:

xml.parsers.expat.ExpatError: not well-formed (invalid token): line 16519, column 83

xml.sax._exceptions.SAXParseException: online-valid.xml:16519:83: not well-formed (invalid token)

显然根据提示我们知道是xml文件中存在非法字符


接下来要解决的问题就是如何处理xml中的非法字符了(开启疯狂BG模式~~~

几番B搜无果,最后在G搜到类似的内容:

 

#!/usr/bin/python
# -*- coding:utf-8 -*-
 
import string
import xml.dom.minidom
 
def parse_xml(file_path):
    """
    Handle xml file with invalid character
    [input] : path of the xml file
    [output] : xml.dom.minidom.Document instance
    """
    try:
        xmldoc = xml.dom.minidom.parse(file_path)
    except:
        f = file(file_path)
        s = f.read()
        f.close()
 
        ss = s.translate(None, string.printable)
        s = s.translate(None, ss)
 
        xmldoc = xml.dom.minidom.parseString(s)
    return xmldoc
 
if __name__ == '__main__':
    pass


以纯文本当时读取文件,然后用字符串来处理,就能得到非法字符完全剔除的的结果了

 

于是作业也就可以愉快的进行下去啦






版权声明:本文为博主原创文章,未经博主允许不得转载。

 

版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

手把手教你肢解钓鱼网站

引言 前些日子,一位大学老师的QQ被盗了,导致群发教育网站的链接,其中竟然还有一位同学中招!看来大家对钓鱼网站还不够警惕,就借这次机会,给大家展示一下钓鱼网站是怎么骗人的。撰写本文的想法也是源于郭燕老...

五种方法教你鉴别山寨、欺诈和钓鱼网站

互联网是个很神奇的世界,你可以用它来做很多意想不到的事情。但是,和生活中的其他事物一样,这里也会存在危险。

钓鱼网站+邮件诈骗 实例分析

防网络诈骗分析

全球钓鱼网站数量激增,交易、金融证券等行业成“重灾区”

《报告》指出,随着互联网的迅猛发展及其在各行业的深入渗透,其安全形势与挑战日趋严峻,网络钓鱼已成为威胁网络安全的突出问题且呈现严重化趋势,建议广大网民增强防范意识,共同营造健康安全的网络生态环境。

警惕url跳转到钓鱼网站--淘宝二手经历

小马手机丢了于是在淘宝二手搜了一下,发现有个貌似很真实但价格低的不大真实的商品···于是加了qq,人家说1600 64g的5s包邮··· 而且煞有其事的发了图片过来: 第二天就发了淘宝链接,由...

如何防范“信息泄露+钓鱼网站”典型网络诈骗模式

羊城晚报7日报道,不少市民向记者反映,他们在某网上购物商城注册了个人信息,并在该商城购物。岂料由于自己在该网站的个人信息被泄露,导致不少用户被骗,最多的一次被骗走12万元。 “信息泄露+钓鱼网站”...

如何自己搭建钓鱼网站检测系统

0×01基本系统架构 随着电子商务、互联网金融的快速发展,在利益的驱使下,从事“钓鱼攻击”的黑产呈逐渐上升趋势。“钓鱼攻击”不仅对企业的品牌形象造成严重损害,还对用户的账户安全、甚至资金安全构成...

亚洲诚信:钓鱼网站飙升居然因为浏览器...

2017年注定是个不太平的年份,钓鱼网站的数量已经达到了巅峰状态……

网络安全之钓鱼网站

网络安全之钓鱼网站

五大技巧识别钓鱼网站

网上购物和网上银行凭借其便捷性和通达性,在互联网上日渐流行。在互联网上,你可以随时进行转账汇款或进行交易。据艾瑞咨询发布《2008-2009年中国网上支付行业发展报告》显示:中国互联网支付市场交易规模...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)