2021-06-18

最新推荐文章于 2022-08-25 14:41:42 发布

远晨★

最新推荐文章于 2022-08-25 14:41:42 发布

阅读量2.2k

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/qq_51723459/article/details/118014355

版权

笔记专栏收录该内容

5 篇文章 1 订阅

订阅专栏

                    
                    下列状态码中，表示服务器端有错误的是（    ）
 答案：5022. 下列选项中，用于在robots.txt文件中描述搜索引擎名字的是（    ）。答案：User-agent3. 下列符号中，用于注释robots.txt文件的记录的是（    ）。答案：#4. 下列数据中，能够被网络爬虫抓取的是（    ）。答案：互联网公开的且可访问到的信息5. 下列选项中，被称为主题网络爬虫的是（    ）。答案：聚焦网络爬虫6. 下列选项中，被称为全网爬虫的是（    ）。答案：通用网络爬虫7. 下列几个Scrapy组件中，用于从Response中解析Item数据和URL的是（）。答案：Spiders8. 阅读下面的程序： from queue import Queue queue_object = Queue(2) print(queue_object.full()) 运行程序，其最终输出的结果为（）。答案：False9. 下列术语中，用于表示MongoDB数据库中集合的是（      ）。答案：collection10. 使用Selenium库时，浏览器对象调用（     ）方法可以往网页的输入框中输入文字。答案：send_keys()11. 使用Selenium库时，用于模拟点击回车键的代码是（）。答案：driver.find_element_by_id(“kw”).send_keys(Keys.RETURN)12. 在PyMongo库中，用来负责与MongoDB建立连接的类是（）。答案：MongoClient13. 在pymongo中，Collection类的（        ）方法可以往集合中插入多条文档对象。答案：insert_many()14. 下列选项中，Spider的（     ）属性用于区分Scrapy项目中不同的爬虫。答案：name15. gevent库中的（     ）函数用于创建并启动协程。答案：spawn()16. 下列命令中，可以新建一个Scrapy项目的是（）。答案：scrapy startproject mySpider17. queue.Queue类的（        ）方法，用于在队列的末尾添加元素。答案：put()18. 使用Selenium时，浏览器对象的（      ）方法，可以将页面内容加载到浏览器对象中。答案：get()19. 下列Scrapy组件中，用于将请求按照一定的方式整理入队的是（       ）。答案：Scheduler20. 使用Selenium库时，浏览器对象的（        ）方法，使用XPath表达式来定位元素。答案：find_elements_by_xpath21. 阅读下面的程序： from queue import Queue queue_object = Queue(5) print(queue_object.get(timeout=1)) 运行程序，其最终输出的结果为（）。答案：运行产生Empty异常22. 在Scrapy框架中，Spider类的（        ）属性用于约束爬虫的搜索范围。答案：allow_domains23. 使用Selenium库时，下列选项中，可以保存浏览器页面快照的是（          ）。答案：save_screenshot()24. 如果设置（     ）参数的值小于或等于0，则表示Queue对象的大小没有限制。答案：maxsize25. 使用Selenium库时，浏览器对象的（       ）方法，用于获取页面中的Cookie。答案：get_cookies()26. 下列文件中，哪个可以指定Scrapy项目中使用的管道？（           ）答案：pipelines.py27. 阅读下面的程序：from queue import Queue queue_object = Queue(2) print(queue_object.empty()) 运行程序，其最终输出的结果为（）。答案：True28. 阅读下面的程序： from queue import Queue queue_object = Queue(5) for i in range(3):       queue_object.put(i) print(queue_object.qsize()) 运行程序，其最终输出的结果为（）。答案：329. 使用Selenium库时，浏览器对象的（      ）方法，用于关闭浏览器对象。答案：driver.quit()30. Scrapy项目中，哪个文件可以定制各个组件的行为？（     ）答案：settings.py31. 在一个Scrapy项目中，下列文件中，可以定义项目的目标实体的是（      ）答案：items.py32. Scrapy爬虫第一次下载数据时，会从（     ）中取出URL开始爬取。答案：start_urls33. lxml库中的（    ）类，用来表示XML中的节点。答案：Element34. 下列响应报头中，用于告诉客户端资源文件的类型和编码的是（）。答案：Content-Type35. requests库中的（    ）函数发送一个post请求。答案：post()36. 下列请求报头中，可以指明浏览器可接受的编码方式的是（）。答案：Accept-Encoding37. urllib.parse模块的（    ）函数，用于对URL进行解码。答案：unquote38. 阅读下面的程序：from bs4 import BeautifulSouphtml_doc = “”"<html><body><a>这是段落。</a><b>这是段落。</b><p>这是段落。</p><p>段落元素由 p 标签定义。</p> </body></html>"""soup = BeautifulSoup(html_doc, ‘lxml’)result = soup.find_all([“a”, “b”])print(result)运行上述程序，最终输出的结果为（）。答案：[<a>这是段落</a>, <b>这是段落</b>]39. urllib.request.Request类的（    ）方法，用于添加请求报头。答案：add_header40. 如果没有明确选择解析器，那么BeatutifulSoup对象一般选取解析器的顺序为（）。答案：lxml，html5lib，Python标准库41. XPath表达式中，能够匹配任何元素节点的是（）。答案：*42. （         ）模块用作发送HTTP请求。答案：urllib.request43. 下列符号中，能够分隔XPath表达式中任意两个节点的是（）。答案：/44. requests.models.Response类的（   ）属性，表示响应的状态码。答案：status_code45. 下列XPath表达式，（       ）表示同时选取文档中的所有title和price元素。答案：//title | //price46. 端口号标识了一个主机上进行通信的不同的应用程序，HTTP协议默认端口号为（）。答案：8047. （    ）模块提供了正则表达式匹配操作。答案：re48. 请阅读下列一段示例程序： import requests url = “https://www.baidu.com/” response = requests.get(url) response.encoding = ‘ISO-8859-1’ print(response.text) 上述程序运行后，会使用（    ）编码方式返回文本。答案：ISO-8859-149. 如果调用find_all方法时传入一个正则表达式，那么BeatutifulSoup对象会通过re模块的（    ）函数进行匹配。答案：match()50. 下列协议类型中，用于表示访问远程网络资源的超文本传输协议的是（）。答案：http51. 如果想要选取所有拥有lang属性的title元素，则可以使用XPath表达式（      ）实现。答案：//title[@lang]52. 下列XPath表达式中，表示从根节点bookstore向下选取book子节点的是（    ）。答案：bookstore/book53. BeautifulSoup对象的（     ）方法，用于使用CSS选择器选取节点。答案：select()54. 下列状态码中，表示服务器拒绝访问的是（）。答案：40355. 下列报头中，用于表明客户端希望接收HTML文本的是（）。答案：Accept：text/html56. urllib.parse模块的（    ）函数，用于对URL进行编码。答案：urlencode57. requests库的（     ）函数，用于构建一个HTTP请求。答案：request()58. 标准库json中的（    ）函数用于将JSON格式的字符串解码转换为Python对象。答案：loads()59. requests库中（    ）类用于操作请求会话。答案：Session60. 下列选项中，可以用来解析非结构化文本的技术有（    ）。答案：正则表达式61. 下列字符编码中，可以解决多种

远晨★

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
2021-06-18

下列状态码中，表示服务器端有错误的是（    ）答案：5022. 下列选项中，用于在robots.txt文件中描述搜索引擎名字的是（    ）。答案：User-agent3. 下列符号中，用于注释robots.txt文件的记录的是（    ）。答案：#4. 下列数据中，能够被网络爬虫抓取的是（    ）。答案：互联网公开的且可访问到的信息5. 下列选项中，被称为主题网络爬虫的是（    ）。答案：聚焦网络.
复制链接

扫一扫