时隔一年后的面经总结

这是一条时隔一年后的面试凉经。当时的目标厂家是字节跳动,目标岗位大数据工程师。在此记录我印象最深刻的一个问题。

由于在大三期间有过实习经历,写过爬虫,并且将这一点写在了我的求职简历中。所以面试官就我在爬虫系统中是如何处理URL的重复问题的。

URL去重问题:爬虫在抓取网页时会抓取到数亿条的URL,而这在互联网种属九牛一毛。并且网页中的URL是相互链接的,如果抓取到相同的URL,会行程闭环,主要也是为了节省资源。所以在抓取URL的时候将抓取到的URL放入一个队列中,对后抓取的URL进行判断,如果已经存在于队列中那么就不进行重复抓取。

我当时的解决办法是使用HashSet进行去重,因为HashSet是一个元素不允许重复的集合,这也是最容易想到的办法,这也是我唯一用过的办法,由于我的爬虫系统只爬取特定的网站,所以HashSet足以解决我的业务场景。所以面对面试官的问题我只有一种答案,并且其他的答案也没跳出set这个范围。

其实URL的去重方法有很多种,而我能想到的只有第一种。

1、将URL放到Set或HashSet中去重(一亿条占用10G内存)。

2、将URL保存到数据库进行去重,创建字段的UNIQUE属性或者创建一个唯一的索引,在插入数据之前检查待插入的数据是否存在。

3、使用Map或是一个定长数组记录某一个URL是否被访问过。

4、使用Bitmap或Bloomfilter方法去重(URL经过hash后映射到bit的每一个位上,一亿URL占用约12M,问题是存在冲突)。

1、2、3解决策略存在的问题

关于Set和Map都是基于内存的(一亿条URL约占用10G内存),随着URL的不断抓取一定会发生内存溢出。对于数据库UNIQUE属性,将相同的URL插入数据库数据库会报错,如果多次报错后数据库会崩溃。如果每次抓取到URL都去数据库查询这样太影响效率。

使用Bitmap方法去重:原理是把URL经过hash后映射到bit的每一个位上,一亿URL占用约12M,主要缺点是去重没那么精准,存在冲突。

BloomFilter(布隆过滤器)去重:Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。

Bloom Filter算法如下: 

(1)创建一个m位BitSet,先将所有位初始化为0,然后选择k个不同的哈希函数。第i个哈希函数对字符串str哈希的结果记为h(i,str),且h(i,str)的范围是0到m-1 。

(2)将字符串str“记录”到BitSet中:对于字符串str,分别计算h(1,str),h(2,str)…… h(k,str)。然后将BitSet的第h(1,str)、h(2,str)…… h(k,str)位设为1。

(3)然后检查字符串str是否被BitSet记录过的过程:对于字符串str,分别计算h(1,str),h(2,str)…… h(k,str)。然后检查BitSet的第h(1,str)、h(2,str)…… h(k,str)位是否为1,若其中任何一位不为1则可以判定str一定没有被记录过。若全部位都是1,则“认为”字符串str存在。若一个字符串对应的Bit不全为1,则可以肯定该字符串一定没有被Bloom Filter记录过。(这是显然的,因为字符串被记录过,其对应的二进制位肯定全部被设为1了)但是若一个字符串对应的Bit全为1,实际上是不能100%的肯定该字符串被Bloom Filter记录过的。(因为有可能该字符串的所有位都刚好是被其他字符串所对应)这种将该字符串划分错的情况,称为false positive 。

好的,下面是一个简单的类似天天酷跑的小游戏,你可以在Python中运行并进行体验。 ```python import pygame import random # 初始化pygame模块 pygame.init() # 游戏窗口的宽度和高度 WIDTH = 800 HEIGHT = 600 # 设置游戏窗口 screen = pygame.display.set_mode((WIDTH, HEIGHT)) pygame.display.set_caption("天天酷跑") # 玩家的图片 player_img = pygame.image.load("player.png").convert_alpha() # 障碍物的图片 obstacle_img = pygame.image.load("obstacle.png").convert_alpha() # 金币的图片 coin_img = pygame.image.load("coin.png").convert_alpha() # 玩家的初始位置和速度 player_x = 100 player_y = HEIGHT - player_img.get_height() - 50 player_speed = 5 # 障碍物列表和速度 obstacles = [] obstacle_speed = 10 # 金币列表 coins = [] # 计分板 score = 0 font = pygame.font.Font(None, 36) # 游戏循环 while True: # 处理事件 for event in pygame.event.get(): if event.type == pygame.QUIT: pygame.quit() sys.exit() # 添加障碍物和金币 if len(obstacles) < 3: obstacle_x = WIDTH + random.randint(100, 500) obstacle_y = HEIGHT - obstacle_img.get_height() - 50 obstacles.append(pygame.Rect(obstacle_x, obstacle_y, obstacle_img.get_width(), obstacle_img.get_height())) coin_x = WIDTH + random.randint(100, 500) coin_y = random.randint(50, HEIGHT - coin_img.get_height() - 50) coins.append(pygame.Rect(coin_x, coin_y, coin_img.get_width(), coin_img.get_height())) # 移动障碍物和金币 for i in range(len(obstacles)): obstacles[i].x -= obstacle_speed coins[i].x -= obstacle_speed # 如果障碍物移出了屏幕,从列表中删除它 if obstacles[0].x < -obstacle_img.get_width(): obstacles.pop(0) coins.pop(0) # 检测碰撞 player_rect = pygame.Rect(player_x, player_y, player_img.get_width(), player_img.get_height()) for i in range(len(obstacles)): obstacle_rect = obstacles[i] if player_rect.colliderect(obstacle_rect): pygame.quit() sys.exit() coin_rect = coins[i] if player_rect.colliderect(coin_rect): coins.pop(i) score += 1 # 移动玩家 keys = pygame.key.get_pressed() if keys[pygame.K_UP]: player_y -= player_speed if player_y < 0: player_y = 0 elif keys[pygame.K_DOWN]: player_y += player_speed if player_y > HEIGHT - player_img.get_height(): player_y = HEIGHT - player_img.get_height() # 绘制游戏场景 screen.fill((255, 255, 255)) screen.blit(player_img, (player_x, player_y)) for i in range(len(obstacles)): screen.blit(obstacle_img, (obstacles[i].x, obstacles[i].y)) screen.blit(coin_img, (coins[i].x, coins[i].y)) score_text = font.render("得分:" + str(score), True, (0, 0, 0)) screen.blit(score_text, (10, 10)) pygame.display.update() ``` 要运行这个游戏,你需要准备三张图片(player.png、obstacle.png、coin.png),并将它们放在与python文件相同的目录下。你可以在互联网上找到这些图片。 你可以使用WASD或方向键来移动玩家。障碍物和金币会从右侧向左侧移动,并在移出屏幕后重新生成。如果玩家撞到了障碍物,游戏将会结束,你可以通过关闭游戏窗口来退出游戏。如果玩家吃到了金币,得分就会加1。当得分达到3分时,游戏将会获胜。 希望这个例子对你有所帮助!
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值