- 下列状态码中,表示服务器端有错误的是( )
答案:5022. 下列选项中,用于在robots.txt文件中描述搜索引擎名字的是( )。答案:User-agent3. 下列符号中,用于注释robots.txt文件的记录的是( )。答案:#4. 下列数据中,能够被网络爬虫抓取的是( )。答案:互联网公开的且可访问到的信息5. 下列选项中,被称为主题网络爬虫的是( )。答案:聚焦网络爬虫6. 下列选项中,被称为全网爬虫的是( )。答案:通用网络爬虫7. 下列几个Scrapy组件中,用于从Response中解析Item数据和URL的是()。答案:Spiders8. 阅读下面的程序: from queue import Queue queue_object = Queue(2) print(queue_object.full()) 运行程序,其最终输出的结果为()。答案:False9. 下列术语中,用于表示MongoDB数据库中集合的是( )。答案:collection10. 使用Selenium库时,浏览器对象调用( )方法可以往网页的输入框中输入文字。答案:send_keys()11. 使用Selenium库时,用于模拟点击回车键的代码是()。答案:driver.find_element_by_id(“kw”).send_keys(Keys.RETURN)12. 在PyMongo库中,用来负责与MongoDB建立连接的类是()。答案:MongoClient13. 在pymongo中,Collection类的( )方法可以往集合中插入多条文档对象。答案:insert_many()14. 下列选项中,Spider的( )属性用于区分Scrapy项目中不同的爬虫。答案:name15. gevent库中的( )函数用于创建并启动协程。答案:spawn()16. 下列命令中,可以新建一个Scrapy项目的是()。答案:scrapy startproject mySpider17. queue.Queue类的( )方法,用于在队列的末尾添加元素。答案:put()18. 使用Selenium时,浏览器对象的( )方法,可以将页面内容加载到浏览器对象中。答案:get()19. 下列Scrapy组件中,用于将请求按照一定的方式整理入队的是( )。答案:Scheduler20. 使用Selenium库时,浏览器对象的( )方法,使用XPath表达式来定位元素。答案:find_elements_by_xpath21. 阅读下面的程序: from queue import Queue queue_object = Queue(5) print(queue_object.get(timeout=1)) 运行程序,其最终输出的结果为()。答案:运行产生Empty异常22. 在Scrapy框架中,Spider类的( )属性用于约束爬虫的搜索范围。答案:allow_domains23. 使用Selenium库时,下列选项中,可以保存浏览器页面快照的是( )。答案:save_screenshot()24. 如果设置( )参数的值小于或等于0,则表示Queue对象的大小没有限制。答案:maxsize25. 使用Selenium库时,浏览器对象的( )方法,用于获取页面中的Cookie。答案:get_cookies()26. 下列文件中,哪个可以指定Scrapy项目中使用的管道?( )答案:pipelines.py27. 阅读下面的程序:from queue import Queue queue_object = Queue(2) print(queue_object.empty()) 运行程序,其最终输出的结果为()。答案:True28. 阅读下面的程序: from queue import Queue queue_object = Queue(5) for i in range(3): queue_object.put(i) print(queue_object.qsize()) 运行程序,其最终输出的结果为()。答案:329. 使用Selenium库时,浏览器对象的( )方法,用于关闭浏览器对象。答案:driver.quit()30. Scrapy项目中,哪个文件可以定制各个组件的行为?( )答案:settings.py31. 在一个Scrapy项目中,下列文件中,可以定义项目的目标实体的是( )答案:items.py32. Scrapy爬虫第一次下载数据时,会从( )中取出URL开始爬取。答案:start_urls33. lxml库中的( )类,用来表示XML中的节点。答案:Element34. 下列响应报头中,用于告诉客户端资源文件的类型和编码的是()。答案:Content-Type35. requests库中的( )函数发送一个post请求。答案:post()36. 下列请求报头中,可以指明浏览器可接受的编码方式的是()。答案:Accept-Encoding37. urllib.parse模块的( )函数,用于对URL进行解码。答案:unquote38. 阅读下面的程序:from bs4 import BeautifulSouphtml_doc = “”"<html><body><a>这是段落。</a><b>这是段落。</b><p>这是段落。</p><p>段落元素由 p 标签定义。</p> </body></html>"""soup = BeautifulSoup(html_doc, ‘lxml’)result = soup.find_all([“a”, “b”])print(result)运行上述程序,最终输出的结果为()。答案:[<a>这是段落</a>, <b>这是段落</b>]39. urllib.request.Request类的( )方法,用于添加请求报头。答案:add_header40. 如果没有明确选择解析器,那么BeatutifulSoup对象一般选取解析器的顺序为()。答案:lxml,html5lib,Python标准库41. XPath表达式中,能够匹配任何元素节点的是()。答案:*42. ( )模块用作发送HTTP请求。答案:urllib.request43. 下列符号中,能够分隔XPath表达式中任意两个节点的是()。答案:/44. requests.models.Response类的( )属性,表示响应的状态码。答案:status_code45. 下列XPath表达式,( )表示同时选取文档中的所有title和price元素。答案://title | //price46. 端口号标识了一个主机上进行通信的不同的应用程序,HTTP协议默认端口号为()。答案:8047. ( )模块提供了正则表达式匹配操作。答案:re48. 请阅读下列一段示例程序: import requests url = “https://www.baidu.com/” response = requests.get(url) response.encoding = ‘ISO-8859-1’ print(response.text) 上述程序运行后,会使用( )编码方式返回文本。答案:ISO-8859-149. 如果调用find_all方法时传入一个正则表达式,那么BeatutifulSoup对象会通过re模块的( )函数进行匹配。答案:match()50. 下列协议类型中,用于表示访问远程网络资源的超文本传输协议的是()。答案:http51. 如果想要选取所有拥有lang属性的title元素,则可以使用XPath表达式( )实现。答案://title[@lang]52. 下列XPath表达式中,表示从根节点bookstore向下选取book子节点的是( )。答案:bookstore/book53. BeautifulSoup对象的( )方法,用于使用CSS选择器选取节点。答案:select()54. 下列状态码中,表示服务器拒绝访问的是()。答案:40355. 下列报头中,用于表明客户端希望接收HTML文本的是()。答案:Accept:text/html56. urllib.parse模块的( )函数,用于对URL进行编码。答案:urlencode57. requests库的( )函数,用于构建一个HTTP请求。答案:request()58. 标准库json中的( )函数用于将JSON格式的字符串解码转换为Python对象。答案:loads()59. requests库中( )类用于操作请求会话。答案:Session60. 下列选项中,可以用来解析非结构化文本的技术有( )。答案:正则表达式61. 下列字符编码中,可以解决多种
2021-06-18
最新推荐文章于 2022-08-25 14:41:42 发布