python广告爬虫_我如何实现一个网络爬虫抓取广告链接?

博主编写了一个爬虫用于跟踪Alexa前500强网站的深度为2,抓取所有链接并存入文件。但遇到问题,爬虫无法捕获存在于iframes或CSS文件中的广告链接。文章探讨了如何修改爬虫代码以确保抓取所有链接,包括广告链接。
摘要由CSDN通过智能技术生成

为了得到训练数据,我写了一个爬虫来跟踪Alexa上500强网站的深度为2,并将找到的所有链接写入一个文件。现在,它查找html中的所有链接并将它们写入一个文件。问题是,爬虫程序漏掉了所有指向广告的链接,其中一些链接位于iframes或CSS文件中。我怎样才能改变我的网络爬虫,使它抓取所有的链接,包括广告?相关代码可在下面找到。在

类爬虫程序(对象):def __init__(self, root, depth, locked=True):

self.root = root

self.depth = depth

self.locked = locked

self.host = urlparse.urlparse(root)[1]

self.urls = []

self.links = 0

self.followed = 0

def crawl(self):

#print " in crawl"

page = Fetcher(self.root)

q = Queue()

#print "made fetcher"

try:

page.fetch()

if page.urls == []:

print "Error: could not fetch urls for %s" % (self.root)

return

#raise KeyboardInterrupt

else:

target = open("output.txt", 'w

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值