第一章 认识网络爬虫(习题)

填空

1.网络爬虫又称为网络蜘蛛或______

2.robots协议又称为_______协议,用于保护网站数据和敏感信息

3.网络爬虫按照系统结构和实现技术可分为通用网络爬虫,______,增量式网络爬虫,深层网络爬虫.

4.浏览器在访问网站时会携带_______,向网站表明自己的的真实身份

5网络爬虫的基本流程包括抓取网页数据,____和存储数据

判断

6.robots协议可以限制爬虫程序采集某些网页的数据()

7.网络爬虫是一个模拟真人浏览互联网行为的程序()

8.网络爬虫可以抓取互联网上的任何数据()

9.通用网络爬虫会访问与预定主题相关的网页()

10.网络爬虫只能使用python语言开发()

选择

11.下列选项中,不属于python开发网络爬虫的优势是

A 语法简洁,容易上手 B开发效率高 C模块丰富 D 运行速度快,性能强

12.下列选项中,关于网络爬虫描述错误的是()

A 聚焦网络爬虫可以抓取指定网站的数据

B通用网络爬虫是可以访问全互联网资源的网络爬虫

C增量式网络爬虫只能抓取新产生的网页或内容发生变化的网页

D聚焦网络爬虫通常用于实现搜索引擎

13.下列选项中,表示robots协议禁止网络爬虫访问的是()

A User-agent  B Disallow C Allow  D Sitemap

14.下列选项中,关于聚焦网络爬虫工作原理描述错误的是()

A聚焦网络爬虫的种子url只能有一个

B聚焦网络爬虫会根据爬虫策略,在url队列中确定url的优势级

C聚焦网络爬虫会根据爬虫策略,在url队列中确定url的优先级

D聚焦网络爬虫会循环抓取数据直到满足条件为止

简答题

15.请简述什么事网络爬虫?
16.请简述网络爬虫的工作流程

答案

1.网络机器人

2.爬虫协议

3.聚焦网络爬虫

4.User-agent

5.解析网页数据

6.看写爬虫的人,如果他是君子,那么可以限制,如果他是不讲武德的人,那么就限制不了.

7.√

8.× 只能说是大部分数据,毕竟网站的反爬也不是吃素的,让你爬就爬.

9.×通用网络爬虫的目标是爬取全互联网的资源,聚焦网络爬虫才是爬预定目标的网页

10.×大部分编程语言都可以实现爬虫

11.D python是解释型语言,相对来说,性能不是很好

12.D 通用网络爬虫才是实现搜索引擎的

13.B

14.A聚焦网络爬虫的种子url可以有多个

15.按照一定规则,自动请求并提取网页数据的程序

16.先把种子url放入待抓取url列表,依次从该列表中读取url并用DNS解析,把解析好的服务器ip和网页地址给网页下载器,下载器从互联网下载资源到本地,在将本地的资源放入下载页面库中,同时把下载过的url放入已抓取url队列,再从下载的网页中抽取url,看是否已经在已抓取url队列,如果不在就放入待抓取url队列,循环爬.直到待抓取url为空

  • 9
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值