北理工嵩天Python网络爬虫与信息提取MOOC 测验4: Python网络爬虫之框架 (第4周)

最新推荐文章于 2021-06-18 08:33:08 发布

云之声759

最新推荐文章于 2021-06-18 08:33:08 发布

阅读量2.7k

点赞数 3

分类专栏： MOOC小题文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huitinfeng/article/details/103079962

版权

这篇博客主要介绍了Python网络爬虫的相关技术路线，包括正确的技术组合以及Scrapy框架的组成部分和数据流过程。内容涉及网络爬虫的合法性和可能引发的问题，以及Scrapy中的Spiders、Engine、Scheduler、Downloader和Item Pipelines等关键模块。

摘要由CSDN通过智能技术生成

Python网络爬虫与信息提取MOOC 测验4: Python网络爬虫之框架 (第4周)

1、下面哪个不是“网络爬虫与信息提取”相关的技术路线？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、bs4-re

B、scrapy-bs4

C、requests-bs4-re

D、requests-re

正确答案： A

技术路线至少包含一个爬虫库和一个解析库，bs4和re都是解析库。

2、Requests库的方法与HTTP协议请求方法对应，下面哪个不是Requests库的对应方法？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A.push()

B.get()

C.put()

D.patch()

正确答案： A

3、判断一个网络爬虫应用可行性的最主要因素是什么？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、技术路线选取

B、Robots协议是否有允许

C、部署代价和经济成本

D、网页条件，即尽量没有JavaScript脚本产生的数据

正确答案： B

Robots协议允许是爬虫能够实施的首要条件。

4、下面哪个不是网络爬虫可能引发的问题？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪

最低0.47元/天解锁文章

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。