最近在使用Python做网络爬虫,涉及到钓鱼网站的一些问题,或者说是使用Python爬取网站遇到的一些问题,Python语言中有很多强大的工具包,非常强大,在这里因为要爬取网页的内容,所以我选择的工具包为BeautifulSoup,一款强大的网页解析包。
1 爬取网页内容
page = urllib2.urlopen(url)
contents = page.read()
print(contents)
url 就是你爬取得网页地址:比如www.baidu.com
contents就是你爬取得网页的内容也就是网页源代码,以上三行代码就可以完成一个网页的爬取,很简单,通常来说很多网页都可以用这种方法来爬取,但是有时因为遇到网页屏蔽,这个就不行了。最近我在爬取PhishTank这个网址时,就遇到了这个问题,如下图:
解决方法通常有很多种:1 添加http请求头的内容 ;2 使用相关网站的API
在此我使用的是网站的AP