关于网络爬虫的描述,以下错误的是( )。
网络爬虫可以爬取任意数据,完全不需要得到数据提供方的允许。
网络爬虫的类型不包括以下哪个?( )
局域网爬虫
关于增量式网络爬虫说法,以下错误的是( )。
增量式网络爬虫爬取新增加的页面,不爬取已经爬过的页面。
下面哪个不是有效的反爬虫机制?( )
通过在页面中设置JavaScript代码来禁止右击页面。
以下哪个模块是Python自带的,无须使用pip安装,可直接通过import导入后使用?( )
urllib
关于BeautifulSoup的四大对象,以下说法错误的是( )。
Comment对象是一种特殊的NavigableString对象,输出的内容包括注释符号和注释内容。
在使用BeautifulSoup遍历一个嵌套较为复杂的文档树的时候,如果我们要一次性将所有子孙节点全部遍历一遍,需要使用下面哪个属性?( )
descendants属性,获得所有子孙节点的迭代器。
执行soup.find_all(name=’input’)会返回什么?( )
name参数可以查找所有标签名为参数值的Tag对象,所以会返回所有input标签。
在调用BeautifulSoup对象的select()方法时传入字符串参数,即可使用CSS选择器找到标签,以下说法错误的是( )。
select(‘ < title>’)表示按标签括号包裹的文本内容查找。
关于urllib、urllib2、urllib3、requests等模块,以下说法错误的是( )。
urllib是Python1的自带模块,urllib2在Python1引入,后在Python2中被大量使用,所以urllib3是Python3的自带模块。
在网页源代码中, < form>和</ form>标签用来创建供用户输入内容的表单,可以用来包含按钮、文本框、密码输入框、 单选钮、复选框、下拉列表、颜色选择框、日期选择框等组件,使用 action 属性指定用户提交数据时执行的代码文件路径,使用href属性指定用户提交数据的方式。
×
在网页源代码中,< a>标签的method属性用来定义超链接的跳转地址。
×
使用扩展库requests的get()方法成功访问指定URL后返回的response对象,可以通过response对象的content属性来查看字符串形式的网页源代码。( )
√
robots.txt协议是爬虫领域的潜规则协议,所以不用去遵守。( )
×
可以用每秒10万次请示的方式去爬取网站数据,这样可以提高工作效率。( )
×