【作业】研一(互联网新技术作业)

北京邮电大学 2022年暑期学校《互联网新技术及服务》平时作业–简答题

一、简述对“互联网+”的理解,用例子说明“互联网+”的技术源动力和未来发展趋势。比如:互联网+教育

答:我认为可以描述为“互联网+传统行业”,随着信息技术的发展,使得互联网与传统行业进行融合,借助互联网具备的优势特点,创造新的发展机会。“互联网+”通过其自身的优势,对传统行业进行优化创新,从而使得传统行业能够适应当下的新发展,推动社会不断地向前发展。
互联网+教育:
1、受疫情影响,学校不能够按时开学,互联网+教育得到了发展,老师线上教、学生线上学,老师也可以在线上进行作业的批改,使得老师、学生足不出户就完成了教与学任务。
2、不止大中小学生,还有一些在职人员,他们想要进一步学习,可以在互联网上选择优秀的机构和老师,完成学习任务,从而提升自己。

二、简述云计算三层服务的中英文名称和功能解释。

答:基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS),每层服务的功能解释如下所示:
1、基础设施即服务(IaaS)。消费者通过网络可以从完善的计算机基础设施获得服务。
2、平台即服务(PaaS)。PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。因此,PaaS也是SaaS模式的一种应用。但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。
3、软件即服务(SaaS)。它是一种通过网络提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。

三、简述数据挖掘中常用的数据预处理技术。

答:数据预处理包含如下几种方法。
1.缺失值处理:如果数据中含有缺失值,我们后续可能无法对数据进行分析,所以我们要对含有缺失值的数据进行处理,处理缺失值通常有以下方法(1)用一个样本统计量的值代替缺失值,常用的做法是使用该变量的样本平均值代替缺失值。(2)用一个统计模型计算出来的值去代替缺失值。(3)将有缺失值的记录删除,不过可能会导致样本量的减少。
2.异常值处理:由于一些数据收集时出现的意外,我们收集的数据往往可能含有异常值,比如在一个人高5米,一个人重5顿,都是异常值,我们要进行异常值检测并处理,常用的方法有3 ,我们可以通过3sigma、Histogram-based Outlier Score、最小二乘法对数据进行异常值检测。
3.数据变换:通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。
4.数据归约:据挖掘时往往数据量非常大,在少量数据上进行挖掘分析需要很长的时间,数据归约技术可以用来得到数据集的归约表示,它小得多,但仍然接近于保持原数据的完整性,并结果与归约前结果相同或几乎相同。

四、从支持向量机、逻辑回归、决策树或是自己了解的机器学习/深度学习经典算法中选择一个简述其原理。

答:我选择逻辑回归。逻辑回归的原理是用逻辑函数把线性回归的结果(-∞,∞)映射到(0,1)。
线性回归的表达式为:
在这里插入图片描述

式中:其中xi是自变量,y是因变量,y的值域为(-∞,∞),θ0是常数项,θi(i=1,2,…,n)是待求系数,不同的权重θ反映了自变量对因变量不同的贡献程度。
逻辑回归是在线性回归的基础上,进行扩展,加了下面一个公式:
在这里插入图片描述

式中:z就是线性回归中的y变量。
求解逻辑回归中的参数:求解的关键就是求解对数似然函数,对数似然函数如下所示,可以用梯度上升法求解对数似然函数,求出使得目前结果的可能性最大的参数θ。也可以由对数似然函数构造损失函数,用梯度下降法求出使得损失最小对应的参数θ。
在这里插入图片描述

逻辑回归的损失函数:如果损失函数越小,说明模型预测越准。一般模型求数值解可以求出使得损失函数最小对应的参数θ。结合逻辑回归中的极大似然函数,如果取整个数据集上的平均对数似然损失,损失函数如下所示:
在这里插入图片描述

五、简述推荐系统及其涉及的关键技术。

答:(1)随着用户规模的快速增长以及供应商提供的物品的种类越来越多,用户身边充斥着大量信息,让用户眼花缭乱。推荐系统本质上是在用户需求不明确的情况下,根据用户的信息,推荐用户感兴趣的信息/商品/内容。为用户提供精准的个性化推荐。
(2)关键技术:
● 基于用户的协同推荐:用户协同的前提假设是,如果两个用户的历史行为很相似,那么可以说明他们是兴趣相似的人,自然彼此间存在大概率可推荐的内容或物品,通过这种方法进行推荐。
● 基于物品的协同推荐:如果两个物品属于一个用户的兴趣列表,那么这两个物品也就限制在某几个领域内。而如果两个物品属于很多用户的兴趣列表,那么它们大概率属于同一个领域,因此相似度极大,可以用作推荐理由。
● 基于内容的推荐:通过对物品的内容进行挖掘,提取关键词,用关键词向量代表物品,进而利用余弦定理计算相似度。如果两个商品相似度很高,所以可以作为推荐的理由。

六、简述搜索引擎系统架构以及常用的关键技术。

答:(1)搜索引擎基本结构一般包括:搜索器、索引器、检索器、用户接口等四个功能模块。
搜索器:俗称网络爬虫,用来收集信息。
索引器。理解搜索器所采集的网页信息,并从中抽取索引项。
检索器。其功能是快速查找文档,进行文档与查询的相关度评价,对要输出的结果进行排序。
用户接口。它为用户提供可视化的查询输入和结果输出的界面。
(2)关键技术
网络爬虫:通过网络爬虫将互联网的信息获取到本地
倒排索引:倒排索引的索引项是词项,而正排索引的索引项是文档。对于网页搜索,倒排索引可以理解为Map<item, list>,能够由查询词快速(时间复杂度O(1))找到包含这个查询词的网页的数据结构。
链接分析:PageRank算法可以衡量一个网页的质量。链接是网页内容的重要组成部分,Google就是靠PageRank这种链接分析技术起家。通过链接抽取和分析算法,可以得出一个页面的重要程度和被关注程度,这一信息可以用来为页面打分或赋予权重.
分布索引:通常搜索引擎处理的文档集合非常大 ,那么就必须考虑索引的分布式问题。
查询转换:比如分词、停用词去除和词干提取,以生成可以和文档的索引项可以匹配的索引项。同时搜索引擎还需要支持与或非方式的查询方式。

七、简述Spark框架及其重要组件。

答:(1)Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量的廉价硬件之上,形成集群。
(2)重要组件:
1、Spark Core:实现Spark的基本功能,包括任务调度、内存管理、错误恢复、与存储系统交互等,以及RDD(Resilient Distributed Dataset)API的定义。
2、Spark SQL:用Spark来操作结构化数据的程序包。可以使用SQL或Hive的HQL来查询数据,并可以与RDD的操作相结合使用。
3、Spark Streaming:用来对实时数据进行流式计算的组件,Streaming中提供操作流式数据的API与RDD高度对应。Streaming与日志采集工具Flume、消息处理Kafka等可集成使用。
4、 MLib:机器学习(ML)的功能库,提供多种学习算法,包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等功能。
5、 GraphX:用来操作图的程序库,可以用于并行的图计算。扩展了RDD API功能,用来创建一个顶点和边都包含任意属性的有向图。支持针对图的各种操作,如图的分割subgraph、操作所有的顶点mapVertices、三角计算等。
6、集群管理器:Spark支持在各种集群管理器(cluster manager)上运行,包括Hadoop的YARN、Apache的Mesos以及Spark自带的一个简易调度器,叫独立调度器。

八、人工智能对人类生活的影响体现在很多方面,如交通、教育、家居、城市、医疗等,简单调研并举例说明一项人工智能的具体落地应用。

答:人工智能对教育的影响:
1、对于教育者,通过教育大数据,判断出班级学生成绩的薄弱点,以及错题量,帮助老师快速精准掌握学生学习情况;通过Ipad、投影仪、VR眼镜等设备,让学生更好理解知识。教育机器人主要应用在儿童早教中,在吸引学生注意的同时,协助老师上课;智能批改,减轻老师工作负担,人工智能可以代替老师完成重复型的工作或简单分析工作,例如作业批改等,从而使老师可以把更多精力放在学生本身,关注学生身心健康,及时发现学生问题并解决。
2、对于受教育者,可以提高学生上课的积极性,调动学生的积极思考,改变了传统集中式和粗放式的教学方式,可以让学生个性化选择自己所感兴趣的内容,真正做到个性化学习,全面发展;智能AI评估学生的学习情况,附带学业报告,分析优势学科与弱势学科,让学生清楚知道自己哪里仍需提升;智能搜题,有助于学生的课后学习,例如:作业帮、小猿搜题等App可以为同学们随时答疑解惑。

九、根据自己的理解,解释云计算、大数据、人工智能三项技术的关系。

答:云计算、大数据、人工智能这三者的发展不能分开来讲,三者是有着紧密联系的,互相联系,互相依托的。
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。数据每天都在产生,各行各业都有,数据量也是相当之大,但如何整合数据,清洗数据,然后实现数据价值,这才是当今大数据行业的研究重点。大数据最后要实现的是数据超融合,应用到应用场景,大数据的价值才会体现出来。
人工智能就是大数据应用的体现。
云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云计算甚至可以让你体验每秒10万亿次的运算能力,可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。云计算计算的是大数据,离开大数据谈云计算,离开云计算谈大数据,这都是不科学的。
人工智能研究的主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种复杂工作的理解是不同的。人工智能其实就是大数据、云计算的应用场景。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

自由小冰儿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值