北理工嵩天Python网络爬虫与信息提取MOOC 测验4: Python网络爬虫之框架 (第4周)

这篇博客主要介绍了Python网络爬虫的相关技术路线,包括正确的技术组合以及Scrapy框架的组成部分和数据流过程。内容涉及网络爬虫的合法性和可能引发的问题,以及Scrapy中的Spiders、Engine、Scheduler、Downloader和Item Pipelines等关键模块。
摘要由CSDN通过智能技术生成

Python网络爬虫与信息提取MOOC 测验4: Python网络爬虫之框架 (第4周)

1、下面哪个不是“网络爬虫与信息提取”相关的技术路线?‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、bs4-re

B、scrapy-bs4

C、requests-bs4-re

D、requests-re

正确答案: A 

技术路线至少包含一个爬虫库和一个解析库,bs4和re都是解析库。

2、Requests库的方法与HTTP协议请求方法对应,下面哪个不是Requests库的对应方法?‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A.push()

B.get()

C.put()

D.patch()

正确答案: A 

3、判断一个网络爬虫应用可行性的最主要因素是什么?‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、技术路线选取

B、Robots协议是否有允许

C、部署代价和经济成本

D、网页条件,即尽量没有JavaScript脚本产生的数据

正确答案: B 

Robots协议允许是爬虫能够实施的首要条件。

4、下面哪个不是网络爬虫可能引发的问题?‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值