Python PhishTank爬取(钓鱼网站的使用)

最新推荐文章于 2022-04-07 19:44:30 发布

Danielntz

最新推荐文章于 2022-04-07 19:44:30 发布

阅读量7.1k

点赞数

分类专栏： Python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/danielntz/article/details/52535879

版权

本文讲述了使用Python的BeautifulSoup库爬取PhishTank网站时遇到的屏蔽问题及解决方案。通过注册并获取App key，利用PhishTank API获取钓鱼网站URL，并将结果写入文件。同时处理404错误、不安全内容和请求超时问题。

摘要由CSDN通过智能技术生成

最近在使用Python做网络爬虫，涉及到钓鱼网站的一些问题，或者说是使用Python爬取网站遇到的一些问题，Python语言中有很多强大的工具包，非常强大，在这里因为要爬取网页的内容，所以我选择的工具包为BeautifulSoup，一款强大的网页解析包。

1 爬取网页内容

    page = urllib2.urlopen(url)
    contents = page.read()
    print(contents)

url 就是你爬取得网页地址：比如www.baidu.com

contents就是你爬取得网页的内容也就是网页源代码，以上三行代码就可以完成一个网页的爬取，很简单，通常来说很多网页都可以用这种方法来爬取，但是有时因为遇到网页屏蔽，这个就不行了。最近我在爬取PhishTank这个网址时，就遇到了这个问题，如下图：

解决方法通常有很多种：1 添加http请求头的内容；2 使用相关网站的API

在此我使用的是网站的AP

最低0.47元/天解锁文章

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
13
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 13

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。