成都理工大学_Python程序设计_第11章

关于网络爬虫的描述,以下错误的是( )。

网络爬虫可以爬取任意数据,完全不需要得到数据提供方的允许。

​网络爬虫的类型不包括以下哪个?( )

局域网爬虫

‌关于增量式网络爬虫说法,以下错误的是( )。

增量式网络爬虫爬取新增加的页面,不爬取已经爬过的页面。

​下面哪个不是有效的反爬虫机制?( )

通过在页面中设置JavaScript代码来禁止右击页面。

‌以下哪个模块是Python自带的,无须使用pip安装,可直接通过import导入后使用?( )

urllib

‍关于BeautifulSoup的四大对象,以下说法错误的是( )。

Comment对象是一种特殊的NavigableString对象,输出的内容包括注释符号和注释内容。

‏在使用BeautifulSoup遍历一个嵌套较为复杂的文档树的时候,如果我们要一次性将所有子孙节点全部遍历一遍,需要使用下面哪个属性?( )

descendants属性,获得所有子孙节点的迭代器。

​执行soup.find_all(name=’input’)会返回什么?( )

name参数可以查找所有标签名为参数值的Tag对象,所以会返回所有input标签。

‎在调用BeautifulSoup对象的select()方法时传入字符串参数,即可使用CSS选择器找到标签,以下说法错误的是( )。

select(‘ < title>’)表示按标签括号包裹的文本内容查找。

‍关于urllib、urllib2、urllib3、requests等模块,以下说法错误的是( )。

urllib是Python1的自带模块,urllib2在Python1引入,后在Python2中被大量使用,所以urllib3是Python3的自带模块。

‏在网页源代码中, < form>和</ form>标签用来创建供用户输入内容的表单,可以用来包含按钮、文本框、密码输入框、 单选钮、复选框、下拉列表、颜色选择框、日期选择框等组件,使用 action 属性指定用户提交数据时执行的代码文件路径,使用href属性指定用户提交数据的方式。

×

​在网页源代码中,< a>标签的method属性用来定义超链接的跳转地址。

×

​使用扩展库requests的get()方法成功访问指定URL后返回的response对象,可以通过response对象的content属性来查看字符串形式的网页源代码。( )

​robots.txt协议是爬虫领域的潜规则协议,所以不用去遵守。( )

×

‏可以用每秒10万次请示的方式去爬取网站数据,这样可以提高工作效率。( )

×

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

微__凉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值