第一章认识网络爬虫(习题)

最新推荐文章于 2024-04-24 15:45:08 发布

蓝花楹下

最新推荐文章于 2024-04-24 15:45:08 发布

阅读量4.4k

点赞数 9

分类专栏：爬虫基础文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_54503901/article/details/130711716

版权

爬虫基础专栏收录该内容

4 篇文章 4 订阅

订阅专栏

填空

1.网络爬虫又称为网络蜘蛛或______

2.robots协议又称为_______协议,用于保护网站数据和敏感信息

3.网络爬虫按照系统结构和实现技术可分为通用网络爬虫,______,增量式网络爬虫,深层网络爬虫.

4.浏览器在访问网站时会携带_______,向网站表明自己的的真实身份

5网络爬虫的基本流程包括抓取网页数据,____和存储数据

判断

6.robots协议可以限制爬虫程序采集某些网页的数据()

7.网络爬虫是一个模拟真人浏览互联网行为的程序()

8.网络爬虫可以抓取互联网上的任何数据()

9.通用网络爬虫会访问与预定主题相关的网页()

10.网络爬虫只能使用python语言开发()

选择

11.下列选项中,不属于python开发网络爬虫的优势是

A 语法简洁,容易上手 B开发效率高 C模块丰富 D 运行速度快,性能强

12.下列选项中,关于网络爬虫描述错误的是()

A 聚焦网络爬虫可以抓取指定网站的数据

B通用网络爬虫是可以访问全互联网资源的网络爬虫

C增量式网络爬虫只能抓取新产生的网页或内容发生变化的网页

D聚焦网络爬虫通常用于实现搜索引擎

13.下列选项中,表示robots协议禁止网络爬虫访问的是()

A User-agent B Disallow C Allow D Sitemap

14.下列选项中,关于聚焦网络爬虫工作原理描述错误的是()

A聚焦网络爬虫的种子url只能有一个

B聚焦网络爬虫会根据爬虫策略,在url队列中确定url的优势级

C聚焦网络爬虫会根据爬虫策略,在url队列中确定url的优先级

D聚焦网络爬虫会循环抓取数据直到满足条件为止

简答题

15.请简述什么事网络爬虫?
16.请简述网络爬虫的工作流程

答案

1.网络机器人

2.爬虫协议

3.聚焦网络爬虫

4.User-agent

5.解析网页数据

6.看写爬虫的人,如果他是君子,那么可以限制,如果他是不讲武德的人,那么就限制不了.

7.√

8.× 只能说是大部分数据,毕竟网站的反爬也不是吃素的,让你爬就爬.

9.×通用网络爬虫的目标是爬取全互联网的资源,聚焦网络爬虫才是爬预定目标的网页

10.×大部分编程语言都可以实现爬虫

11.D python是解释型语言,相对来说,性能不是很好

12.D 通用网络爬虫才是实现搜索引擎的

13.B

14.A聚焦网络爬虫的种子url可以有多个

15.按照一定规则,自动请求并提取网页数据的程序

16.先把种子url放入待抓取url列表,依次从该列表中读取url并用DNS解析,把解析好的服务器ip和网页地址给网页下载器,下载器从互联网下载资源到本地,在将本地的资源放入下载页面库中,同时把下载过的url放入已抓取url队列,再从下载的网页中抽取url,看是否已经在已抓取url队列,如果不在就放入待抓取url队列,循环爬.直到待抓取url为空

关注

9
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
第一章认识网络爬虫(习题)

16.先把种子url放入待抓取url列表,依次从该列表中读取url并用DNS解析,把解析好的服务器ip和网页地址给网页下载器,下载器从互联网下载资源到本地,在将本地的资源放入下载页面库中,同时把下载过的url放入已抓取url队列,再从下载的网页中抽取url,看是否已经在已抓取url队列,如果不在就放入待抓取url队列,循环爬.直到待抓取url为空。3.网络爬虫按照系统结构和实现技术可分为通用网络爬虫,______,增量式网络爬虫,深层网络爬虫.13.下列选项中,表示robots协议禁止网络爬虫访问的是()
复制链接

扫一扫

专栏目录

博客等级

码龄3年

47
原创

331
点赞

257
收藏

289
粉丝

关注

私信

热门文章

分类专栏

最新评论

python基础1_编程初识
CSDN-Ada助手: 恭喜您写下了第20篇博客！看来您对Python编程有着扎实的基础了。接下来，我建议您可以尝试深入一些高级主题，比如函数式编程、面向对象编程等，这样可以进一步丰富您的编程知识。当然，希望您能在写作的过程中保持谦卑的态度，不断学习，不断进步。加油！
ui自动化测试实例分享(web)
CSDN-Ada助手: 恭喜您发布了第19篇博客！看到您分享了ui自动化测试的实例，让我受益匪浅。希望您能继续坚持创作，分享更多有价值的内容。下一步可以考虑深入探讨不同UI自动化测试工具的比较和选择，或者分享一些实用的技巧和经验。期待您的更多精彩文章！祝您继续在创作道路上不断进步！
app逆向-c语言基础(下)
CSDN-Ada助手: 推荐算法技能树：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
爬虫逆向基础-数据解析
CSDN-Ada助手: 恭喜您写了第16篇博客！标题为“爬虫逆向基础-数据解析”，看起来非常有深度！您对爬虫逆向的理解和数据解析的技巧都非常了不起。我非常期待看到您未来更多的博客作品。在下一步的创作中，或许您可以考虑分享一些实战案例，例如如何应对不同的反爬机制或者解析复杂的数据结构。这样的话，读者们可以更加深入地了解到爬虫逆向的实际应用和挑战。当然，这只是一个建议，希望对您有所启发。期待您的下一篇博客！
逆向app爬虫-python基础
CSDN-Ada助手: 恭喜您写了第14篇博客！标题中的“逆向app爬虫”听起来非常有趣和挑战性。在python基础上探索这个话题，无疑是一个很好的创作方向。不仅能够展示您对爬虫技术的理解，还可以为读者提供在逆向app爬虫方面的基础知识。我想建议您在下一步的创作中，可以尝试更深入地探索逆向app爬虫的具体应用，例如在实际项目中如何应用这项技术，以及如何处理可能遇到的挑战和难题。此外，您还可以考虑分享一些关于优化爬虫性能或者保护自己爬虫安全的经验和技巧，这将对读者非常有帮助。再次恭喜您的持续创作，期待您在未来的文章中继续分享更多有趣且有价值的内容！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。