【大数据导论】

xiao.99

已于 2022-04-20 09:59:13 修改

阅读量1.2w

点赞数 3

分类专栏：笔记文章标签：大数据

于 2022-04-15 11:28:23 首次发布

本文链接：https://blog.csdn.net/lxy994/article/details/124190984

版权

笔记专栏收录该内容

25 篇文章 2 订阅

订阅专栏

第四章

(单选题)以下哪项不属于大数据在城市管理中的应用:( )
• A. 智能交通
• B. 环保监测
• C. 城市规划
• D. 比赛预测
我的答案: D正确答案: D
10分
(单选题)下面关于推荐系统的描述错误的是:( )
• A. 推荐系统是自动联系用户和物品的一种工具
• B. 和搜索引擎相比,推荐系统通过研究用户的兴趣偏好,进行个性化计算
• C. 推荐系统可发现用户的兴趣点,帮助用户从海量信息中去发掘自己潜在的需求
• D. 推荐系统是一种只能通过专家进行人工推荐的系统
我的答案: D正确答案: D
10分
(单选题)以下哪项不属于大数据在零售领域的应用:( )
• A. 大数据征信
• B. 发现关联购物行为
• C. 客户群体划分
• D. 供应链管理
我的答案: A正确答案: A
10分
(单选题)以下推荐方法中,哪一个是基于内容的推荐:( )
• A. 由资深的专业人士来进行物品的筛选和推荐
• B. 基于统计信息进行推荐
• C. 通过机器学习的方法去描述内容的特征,并基于内容的特征来发现与之相似的内容
• D. 对多种推荐算法进行有机组合,然后给出推荐结果
我的答案: C正确答案: C
10分
二. 多选题（共6题，60分）
(多选题)智慧医疗具有哪些优点:( )
• A. 促进优质医疗资源的共享
• B. 避免患者重复检查
• C. 促进医疗智能化
• D. 有助于实现全民免费医疗
我的答案: ABCD正确答案: ABCD
10分
(多选题)下面关于智能物流的描述,正确的是:( )
• A. 又称智慧物流,是利用智能化技术,使物流系统能模仿人的智能,具有思维、感知、学习、推理判断和自行解决物流中某些问题的能力
• B. 可以帮助实现物流资源优化调度和有效配置,并且提升物流系统效率
• C. 智能物流概念源自2010年IBM发布的研究报告《智慧的未来供应链》
• D. 智能物流概念经历了自动化、信息化、网络化3个发展阶段
我的答案: ABCD正确答案: ABCD
10分
(多选题)大数据在金融领域的应用主要包括:( )
• A. 高频交易
• B. 市场情绪分析
• C. 信贷风险分析
• D. 大数据征信
我的答案: ABCD正确答案: ABCD
10分
(多选题)大数据在餐饮行业的应用主要包括:( )
• A. 大数据驱动的团购模式
• B. 利用大数据为用户推荐消费内容
• C. 利用大数据调整线下门店布局
• D. 利用大数据控制店内人流量
我的答案: ABCD正确答案: ABCD
10分
(多选题)智能物流具有哪几个方面的重要作用:( )
• A. 提高物流的信息化和智能化水平
• B. 降低物流成本和提高物流效率
• C. 提高物流活动的一体化
• D. 提高了物流的复杂性
我的答案: ABC正确答案: ABC
10分
(多选题)一个完整的推荐系统通常包括哪3个组成模块:( )
• A. 用户建模模块
• B. 推荐对象建模模块
• C. 推荐算法模块
• D. 可视化模块
我的答案: ABC正确答案: ABC
课后习题
1.请阐述什么是长尾理论。
推荐系统通过发掘用户的历史记录，找到用户的个性化需求，发现用户潜在的消费倾向，从而将长尾商品准确地推荐给可能需要它的用户，帮助用户发现那些他们感兴趣却很难发现的商品，最终实现用户与商家双赢
2.推荐系统的本质是建立用户与商品的联系，根据推荐算法的不同，请用述推荐方法包括哪几类。
专家推荐，基于统计的推荐，基于内容的推荐
协同过滤推荐，混合推荐
3.请阐述推荐系统的组成模块。
用户建模模块，推荐对象建模模块，推荐算法模块
4请阐述大数据在生物医学领域有哪些典型应用。
流行病预测，智慧医疗，生物信息学
5请阐述智慧物流的概念和作用。
智能物流又称智慧物流，是利用智能化技术，使物流系统能模仿人的智慧，具有思维，感知，学习，推理判断和自行解决物流中某些问题的能力，从而实现物流资源优化调度和有效配置，物流系统效率提升现代化物流管理模式
作用：提高物流的信息化和智能化水平
降低物流成本和提高物流效率
提高物流活动的一体化
6请阐述大数据在城市管理领域有哪些典型应用。
智能交通，环保监测，城市规划，安防，疫情防控
7请阐述大数据在金融领域有哪些典型应用。
高频交易，市场情绪分析，信贷风险分析，大数据征信
8请阐述大数据在零售领域有哪些典型应用。
发现关联购买行为，客户群体细分和供应链管理
9请举例说明大数据在体育和娱乐领域的典型应用。
训练球队，投拍影视作品，预测比赛结果
10请阐述大数据在安全领域有哪些典型应用。
大数据与国家安全
应用大数据技术防御网络攻击
警察应用大数据工具预防犯罪

第五章

(单选题)以下哪个不是Scrapy体系架构的组成部分:( )
• A. Scrapy引擎(Engine)
• B. 爬虫(Spiders)
• C. 支持者(Support)
• D. 下载器(Downloader)
我的答案: C
(单选题)假设有一个数据集X={4,8,15,21,21,24,25,28,34},这里采用基于平均值的等高分箱方法对其进行平滑处理,则分箱处理结果是:( )
• A. {8,8,8,22,22,22,29,29,29}
• B. {9,9,9,22,22,22,29,29,29}
• C. {9,9,9,21,21,21,29,29,29}
• D. {9,9,9,22,22,22,28,28,28}
我的答案: B
(单选题)假设属性的取值范围是-957~924,当属性的值为426时,采用小数定标规范化方法对应的转换结果是:( )
• A. 0.421
• B. 0.433
• C. 0.426
• D. 0.489
我的答案: C
(单选题)以下哪项不属于数据清洗的内容:( )
• A. 一致性检查
• B. 精确度校验
• C. 无效值和缺失值的处理
• D. 成对删除
我的答案: B
(单选题)以下哪个不是Flume的核心组件:(A)
• A. 数据块(Block)
• B. 数据源(Source)
• C. 数据通道(Channel)
• D. 数据槽(Sink)
我的答案: A
(单选题)下面关于反爬机制描述错误的是:(D)
• A. 简单低级的网络爬虫,数据采集速度快,伪装度低,如果没有反爬机制,它们可以很快地抓取大量数据,甚至因为请求过多,造成网站服务器不能正常工作,影响了企业的业务开展
• B. 反爬机制也是一把双刃剑,一方面可以保护企业网站和网站数据,但是,另一方面,如果反爬机制过于严格,可能会误伤到真正的用户请求
• C. 如果既要和“网络爬虫”死磕,又要保证很低的误伤率,那么又会增加网站研发的成本
• D. 反爬机制不利于信息的自由流通,不利于网站发展,应该坚决取消
我的答案: D
(单选题)下面关于网络爬虫的描述正确的是:( )
• A. 网络爬虫由控制节点、爬虫节点和资源库构成
• B. 网络爬虫中可以有多个控制节点,每个控制节点下可以有多个爬虫节点
• C. 控制节点之间可以互相通信,控制节点和其下的各爬虫节点之间也可以进行互相通信
• D. 属于同一个控制节点下的各爬虫节点间不可以互相通信
我的答案: D
(单选题)假设A班级的平均分是80,标准差是10,A考了90分;B班的平均分是400,标准差是100,B考了600分。采用Z-Score规范化以后,二者谁的成绩更加优秀:( )
• A. A的成绩更为优秀
• B. B的成绩更为优秀
• C. 二者一样优秀
• D. 无法比较
我的答案: B
(单选题)假设属性的最大值和最小值分别是87000元和11000元,现在需要利用Min-Max规范化方法,将“顾客收入”属性的值映射到0~1 的范围内,则“顾客收入”属性的值为72400元时,对应的转换结果是:( )
• A. 0.808
• B. 0.837
• C. 0.769
• D. 0.987
我的答案: A
(单选题)下面关于网络爬虫的描述错误的是:( )
• A. 网络爬虫是一个自动提取网页的程序
• B. 为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分
• C. 爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件
• D. 网络爬虫的行为和人们访问网站的行为是完全不同的
我的答案: D
(单选题)以下哪个步骤不属于数据的采集与预处理:( )
• A. 利用ETL工具将分布的、异构数据源中的数据,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中
• B. 利用日志采集工具把实时采集的数据作为流计算系统的输入,进行实时处理分析
• C. 利用网页爬虫程序到互联网网站中爬取数据
• D. 对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
我的答案: D
二. 多选题（共10题，41分）
(多选题)数据采集的主要数据源包括:( )
• A. 传感器数据
• B. 互联网数据
• C. 日志文件
• D. 企业业务系统数据
我的答案: ABCD
(多选题)典型的数据采集方法包括:( )
• A. 系统日志采集
• B. 分布式消息订阅分发
• C. ETL
• D. 网络数据采集
我的答案: ABCD
(多选题)数据采集的三大要点是:( )
• A. 全面性
• B. 多维性
• C. 高效性
• D. 精确性
我的答案: ABC
(多选题)数据脱敏的主要原则包括:( )
• A. 保持原有数据特征
• B. 保持数据之间的一致性
• C. 保持业务规则的关联性
• D. 多次脱敏之间的数据一致性
我的答案: ABCD
(多选题)需要清洗的数据的主要类型包括:( )
• A. 残缺数据
• B. 干净数据
• C. 错误数据
• D. 重复数据
我的答案: ACD
(多选题)网络爬虫的类型主要包括:( )
• A. 通用网络爬虫
• B. 聚焦网络爬虫
• C. 增量式网络爬虫
• D. 深层网络爬虫
我的答案: ABCD
(多选题)常见的数据转换策略包括:( )
• A. 平滑处理
• B. 聚集处理
• C. 数据泛化处理
• D. 规范化处理
我的答案: ABCD
(多选题)常用的规范化处理方法包括:( )
• A. Min-Max规范化
• B. Z-Score规范化
• C. 曲面规范化
• D. 小数定标规范化
我的答案: ABD
(多选题)Kafka的架构包括哪些组件:( )
• A. 话题(Topic)
• B. 生产者(Producer)
• C. 服务代理(Broker)
• D. 消费者(Consumer)
我的答案: ABCD
(多选题)数据脱敏的方法主要包括:( )
• A. 数据替换
• B. 无效化
• C. 随机化
• D. 偏移和取整
我的答案: ABCD
三. 简答题（共3题，13.9分）
(简答题)请阐述数据采集方法有哪些？
我的答案：
数据采集方法有下面
1系统日志采集
2分布式消息订阅分发
3ETL
4网络数据采集
(简答题)请阐述数据脱敏的原则和方法？
我的答案：
原则：1.保持原有数据特征 2.保持数据之间的一致性 3.保持业务规则的关联性 4.多次脱敏数据之间的数据一致性
方法：1.数据替换 2.无效化 3.随机化 4.偏移和取整 5.掩码屏蔽 6.灵活编码
(简答题)请简述数据清洗的内容和注意事项。
我的答案：
内容：1.缺失值处理 2.异常值处理 3.数据类型转换 4.重复值处理
注意事项：1)数据清洗时可优先进行缺失值、异常值和数据类型转换的操作，最后进行重复值处理。
(2)在对缺失值、异常值进行处理时，要根据业务的需求进行处理，这些处理并不是一成不变的。常见的填充包括:统计值填充(常用的统计值有均值、中位数、众数)、前/后值填充(一般在前后数据存在关联时使用，比如数据是按照时间进行记录的)、零值填充。
(3)在数据清洗之前，最重要的是对数据表进行查看，要了解表的结构和发现需要处理的值，才能将数据清洗彻底。
(4)数据量的大小也关系着数据的处理方式。如果总数据量较大，而异常的数据(包括缺失值和异常值)的量较少时，可以选择直接删除，因为这通常并不太会影响到最终的分析结果;但是，如果总数据量较小，则每个数据都可能影响分析结果，这个时候就需要认真去对数据进行处理(可能需要通过其他的关联表去找到相关数据进行填充)。
(5)在导人数据表后，-般需要对所有列依次地进行清洗，来保证数据处理的彻底性。有些数据可能看起来是正常可以使用的，实际上在进行处理时可能会出现问题(比如某列数据在查看时看起来是数值类型，但是其实这列数据是字符串类型,这就会导致在进行数值操作时无法使用)。
1.请阐述传统数据采集与大数据采集的区别
传统数据采集大数据采集
数据源来源单一，数据量相对较少来源广泛，数据量巨大
数据类型结构单一数据类型丰富，包括结构化，半结构化和非结构化数据
数据存储关系数据库和并行数据仓库分布式数据库，分布式文件系统
2请阐述数据采集的三大要点。
全面性，多维性，高效性
3请阐述数据采集的数据源有哪些。
传感器数据，互联网数据，日志文件，企业业务系统数据
4请阐述典型的数据采集方法有哪些。
系统日志采集，分布式消息订阅分发，ETL，网络数据采集
5请阐述什么是网络爬虫。
网络爬虫是自动抓取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成部分
6请阐述网络爬虫的组成。
控制节点，爬虫节点，资源库
7请阐述网络爬虫的类型。
通用网络爬虫，聚集网络爬虫，增量式网络爬虫，深层网络爬虫
8请阐述Scrapy爬虫的体系架构。
scrapy引擎，爬虫，下载器，调度器，项目管道，下载器中间件，爬虫中间件，调度器中间件
9请阐述数据清洗的主要内容。
缺失值（估算，编码和录入误差），异常值，数据类型有误的数据和重复值处理
10请阐述数据清洗的注意事项。
数据清洗时可优先进行缺失值，异常值和数据类型转换的操作，最后进行重复值处理
在对缺失值，异常值进行处理时，要根据业务的需求进行处理，这些处理并不是一成不变的
在数据清洗之前，最重要的是对数据表进行查看，要了解表的结构和发现需要处理的值才能将数据清洗彻底
数据量的大小也关系着数据的处理方式
在导入数据表后，一般需要对所有列依次进行清洗，来保证数据处理的彻底性
11请阐述数据转换包括哪些策略。
平滑处理，聚集处理，数据泛化处理，规范化处理，属性构造处理
12请阐述数据规范化包含哪些方法。
Min-Max规范化，Z-Score规范化和小数定标规范化
13请阐述数据脱敏的原则。
保持原有数据特征，保持数据之间的一致性，保持业务规则的关联性，多次脱敏数据之间的数据一致性
14请阐述数据脱敏的方法。
数据替换，无效化，随机化，偏移和取整，掩码屏蔽，灵活编码

xiao.99

关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
【大数据导论】

第四章(单选题)以下哪项不属于大数据在城市管理中的应用:( )• A. 智能交通• B. 环保监测• C. 城市规划• D. 比赛预测我的答案: D正确答案: D(单选题)下面关于推荐系统的描述错误的是:( )• A. 推荐系统是自动联系用户和物品的一种工具• B. 和搜索引擎相比,推荐系统通过研究用户的兴趣偏好,进行个性化计算• C. 推荐系统可发现用户的兴趣点,帮助用户从海量信息中去发掘自己潜在的需求• D. 推荐系统是一种只能通过专家进行人工推荐的系统我的答案: D正确
复制链接

扫一扫