PYTHON——爬虫习题

1单选(1分) 
下面哪个不是Python Requests库提供的方法? 
A、.post() 
B、.push() 
C、.get() 
D、.head() 
答案:B

2单选(1分) 
Requests库中,下面哪个是检查Response对象返回是否成功的状态属性? 
A、.headers 
B、.status 
C、.status_code 
D、.raise_for_status 
答案:C

3单选(1分) 
Requests库中,下面哪个属性代表了从服务器返回HTTP协议头所推荐的编码方式? 
A、.text 
B、.apparent_encoding 
C、.headers 
D、.encoding 
答案:D

4单选(1分) 
Requests库中,下面哪个属性代表了从服务器返回HTTP协议内容部分猜测的编码方式? 
A、.text 
B、.encoding 
C、.apparent_encoding 
D、.headers 
答案:C

5单选(1分) 
Requests库中,下面哪个是由于DNS查询失败造成的获取URL异常? 
A、requests.Timeout 
B、requests.HTTPError 
C、requests.URLRequired 
D、requests.ConnectionError 
答案:D

6单选(1分) 
以下哪个是不合法的HTTP URL? 
A、http://223.252.199.7/course/BIT-1001871002#/ 
B、news.sina.com.cn:80 
C、http://dwz.cn/hMvN8 
D、https://210.14.148.99/ 
答案:B

7单选(1分) 
在Requests库的get()方法中,能够定制向服务器提交HTTP请求头的参数是什么? 
A、data 
B、cookies 
C、headers 
D、json 
答案:C

8单选(1分) 
在Requests库的get()方法中,timeout参数用来约定请求的超时时间,请问该参数的单位是什么? 
A、分钟 
B、微秒 
C、毫秒 
D、秒 
答案:D

9单选(1分) 
下面哪个不是网络爬虫带来的负面问题? 
A、法律风险 
B、隐私泄露 
C、性能骚扰 
D、商业利益 
答案:D

10单选(1分) 
下面哪个说法是不正确的? 
A、Robots协议可以作为法律判决的参考性“行业共识”。 
B、Robots协议告知网络爬虫哪些页面可以抓取,哪些不可以。 
C、Robots协议是互联网上的国际准则,必须严格遵守。 
D、Robots协议是一种约定。 
答案:C

11单选(1分) 
如果一个网站的根目录下没有robots.txt文件,下面哪个说法是不正确的? 
A、网络爬虫应该以不对服务器造成性能骚扰的方式爬取内容。 
B、网络爬虫可以不受限制的爬取该网站内容并进行商业使用。 
C、网络爬虫可以肆意爬取该网站内容。 
D、网络爬虫的不当爬取行为仍然具有法律风险。 
答案:B

12单选(1分) 
百度的关键词查询提交接口如下,其中,keyword代表查询关键词: 
http://www.baidu.com/s?wd=keyword 
请问,提交查询关键词该使用Requests库的哪个方法? 
A、.patch() 
B、.get() 
C、.post() 
D、.put() 
答案:B

13单选(1分) 
获取网络上某个URL对应的图片或视频等二进制资源,应该采用Response类的哪个属性? 
A、.text 
B、.head 
C、.content 
D、.status_code 
答案:C

14单选(1分) 
Requests库中的get()方法最常用,下面哪个说法正确? 
A、HTTP协议中GET方法应用最广泛,所以,get()方法最常用。 
B、服务器因为安全原因对其他方法进行限制,所以,get()方法最常用。 
C、get()方法是其它方法的基础,所以最常用。 
D、网络爬虫主要进行信息获取,所以,get()方法最常用。 
答案:B

15单选(1分) 
下面哪些功能网络爬虫做不到? 
A、爬取网络公开的用户信息,并汇总出售。 
B、爬取某个人电脑中的数据和文件。 
C、分析教务系统网络接口,用程序在网上抢最热门的课。 
D、持续关注某个人的微博或朋友圈,自动为新发布的内容点赞。 
答案:B

16填空(2分)

try:
    r = requests.get(url)
    r.__________________()
    r.encoding = r.apparent_encoding
    print(r.text)
except:
    print("Error")
1
2
3
4
5
6
7
请在上述网络爬虫通用代码框架中,填写空格处的方法名称。

答案:raise_for_status

17填空(2分) 
在HTTP协议中,能够对URL进行局部更新的方法是什么? 
得分/总分

答案:PATCH

18填空(2分)

>>> kv = {'k': 'v', 'x': 'y'} 
>>> r = requests.request('GET', 'http://python123.io/ws', params=kv) 
>>> print(r.url)
1
2
3
上述代码的输出结果是什么? 
答案:http://python123.io/ws?k=v&x=y

19填空(2分) 
某一个网络爬虫叫NoSpider,编写一个Robots协议文本,限制该爬虫爬取根目录下所有.html类型文件,但不限制其它文件。请填写robots.txt中空格内容:

User-agent:NoSpider
Disallow:___________
1
2
答案:/*.html

20填空(2分)

>>>import requests
>>>r =  requests.get(url)
1
2
请填写下面语句的空格部分,使得该语句能够输出向服务器提交的url链接。

>>>print(r.____________)
1
答案:url



原文链接:https://blog.csdn.net/codeforcer/article/details/62419370

  • 4
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值