Python PhishTank爬取(钓鱼网站的使用)

本文讲述了使用Python的BeautifulSoup库爬取PhishTank网站时遇到的屏蔽问题及解决方案。通过注册并获取App key,利用PhishTank API获取钓鱼网站URL,并将结果写入文件。同时处理404错误、不安全内容和请求超时问题。
摘要由CSDN通过智能技术生成

    最近在使用Python做网络爬虫,涉及到钓鱼网站的一些问题,或者说是使用Python爬取网站遇到的一些问题,Python语言中有很多强大的工具包,非常强大,在这里因为要爬取网页的内容,所以我选择的工具包为BeautifulSoup,一款强大的网页解析包。

   1 爬取网页内容   

    page = urllib2.urlopen(url)
    contents = page.read()
    print(contents)
      url 就是你爬取得网页地址:比如www.baidu.com

      contents就是你爬取得网页的内容也就是网页源代码,以上三行代码就可以完成一个网页的爬取,很简单,通常来说很多网页都可以用这种方法来爬取,但是有时因为遇到网页屏蔽,这个就不行了。最近我在爬取PhishTank这个网址时,就遇到了这个问题,如下图:


解决方法通常有很多种:1 添加http请求头的内容 ;2 使用相关网站的API

在此我使用的是网站的AP

评论 13
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值