Python网络爬虫与信息提取第二周测验答案

最新推荐文章于 2022-10-21 11:54:46 发布

Divine0

最新推荐文章于 2022-10-21 11:54:46 发布

阅读量6.5k

点赞数 6

分类专栏： Python网络爬虫与信息提取文章标签： python 数据分析

本文链接：https://blog.csdn.net/divine0/article/details/105387460

版权

6 篇文章 9 订阅

订阅专栏

1. 下面哪个Python库不能用于提取网页信息？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

正确答案 D
requests是爬虫库，只用于获取页面，不对页面信息进行提取。

2. 下面代码中，BeautifulSoup指什么？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

from bs4 import BeautifulSoup

正确答案 B
from bs4 import BeautifulSoup
指从bs4库中引入一个元素（函数或类），这里BeautifulSoup是类。

3. 在bs4库中，下面说法错误的是：‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

正确答案 A
一个文档只对应一个标签树

4. 下面代码中，href属于哪个类别？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

<a class="title" href="https://python123.io/ws/demo.html"> TEXT </a>

正确答案 C
a是标签，href是属性。

5. 获得soup对象中，能够获得a标签全部属性的代码是：

from bs4 import BeautifulSoup
soup = BeautifulSoup(demo, "html.parser")

正确答案 D
a标签是HTML预定义标签，通过soup.a可以直接获取。

6. 下面哪个不是信息提取的思路？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

正确答案 A
自然语言理解一般针对语言文本，HTML等信息标记格式产生的文本需要采用信息提取方式获得语言文本，才使用自然语言理解方式进一步处理（如果有需要的话）。

7. 为什么Beautiful Soup库叫这个名字？‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

正确答案 B
Python计算生态采用"集市"模式，命名权归贡献者。

8. Beautiful Soup库不可加载的解析器是：‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

正确答案 D
bs4解析器是能够解释HTML或XML的一个第三方库，re是用来表达并匹配正则表达式的，不能够装载到bs4库中。

9. 不属于bs4库遍历标签树方法的是：‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

正确答案 B
遍历树一般没有"跳跃遍历"。

10. 关于Beautiful Soup库说法错误的是：‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬

正确答案 B
Beautiful Soup库不能够生成标签树，只能解析、遍历和维护。

关注