目录
过拟合和欠拟合
1.过拟合
过拟合是指模型在训练数据上表现得非常好,但在新的、未见过的数据上表现很差。
这就像是一个学生把课本上的内容背得滚瓜烂熟,但遇到实际问题时却不知道如何解决。
过拟合通常是因为模型过于复杂,或者训练数据太少,导致模型把训练数据中的噪声也学习进去了。
2.欠拟合
欠拟合则相反,是指模型在训练数据上表现就很差,更不用说在新的数据上了。
这就像是一个学生连课本上的内容都没有完全理解。
欠拟合通常是因为模型过于简单,或者训练数据太少,导致模型无法捕捉到数据的真实规律。
特征清洗、数据变换、训练集、验证集和测试集
1.特征清洗
简单解释:把数据中的“脏东西”去掉,让数据变得干净整齐。
例子:假设你有一个学生成绩的数据集,其中有一些学生的成绩是空的或者写成了“未知”。特征清洗就是把这些空的或错误的成绩去掉或替换成合理的值,确保每个学生都有一个准确的成绩。
2.数据变换
简单解释:把数据变得更容易理解和使用。
例子:如果你有一组学生的身高数据,单位是厘米。但为了方便比较,你想把这些身高数据转换成米。数据变换就是做这个单位转换的过程,让数据更容易比较和分析。
3.训练集
简单解释:用来教模型学习的数据。
例子:假设你想训练一个识别猫和狗的模型。你会给模型看很多猫和狗的照片,告诉它哪些是猫,哪些是狗。这些用来训练模型的照片就是训练集。
4.验证集
简单解释:用来检查模型学得怎么样的数据。
例子:在训练模型的过程中,你会用一些额外的照片来检查模型是否学会了区分猫和狗。这些照片就是验证集。如果模型在验证集上的表现很好,说明它可能学会了。
5.测试集
简单解释:用来测试模型最终学得如何的数据。
例子:当模型训练完成后,你会用一组全新的、模型从未见过的照片来测试它。这些照片就是测试集。如果模型在测试集上的表现也很好,那么你可以更有信心地认为这个模型在实际应用中也会表现得很好。
跨时间测试和回溯测试
1.跨时间测试(OOT 测试)
含义:跨时间测试是指在不同的时间点对软件进行测试,以检查软件在不同时间段的性能、稳定性和功能是否一致。
通俗解释:想象一下,你有一个软件,你在它刚发布时测试了一次,然后在几个月后再次测试。这就是跨时间测试。目的是确保软件在经过一段时间后仍然能够正常工作,没有出现问题。
2.回溯测试
含义:回溯测试是指在修复了软件中的某个问题或添加了新功能后,重新运行之前的测试用例,以确保该问题已被解决,并且新的更改没有引入新的问题。
通俗解释:假设你的软件有一个bug,你修复了它。为了确保这个修复真的有效,并且没有引入其他的问题,你会重新运行之前为这个bug编写的测试用例。这就是回溯测试。
简而言之,跨时间测试关注软件在不同时间的表现,而回溯测试关注修复或更改后软件的表现。
联合建模与联邦学习
1.联合建模
简单解释:联合建模是多个团队或组织合作,把他们的数据和知识放在一起,共同创建一个模型。
例子:
假设有两家电商公司,它们各自都有用户购物数据。
为了更准确地预测用户的购买行为,这两家公司可以决定联合建模。
它们将各自的数据合并,并共同训练一个模型。这样,模型就能利用更多的数据,从而可能做出更准确的预测。
2.联邦学习
简单解释:联邦学习是一种保护隐私的机器学习方法。在联邦学习中,各个参与方可以在不共享原始数据的情况下,共同训练一个模型。
例子:
假设有多个医院想要合作开发一个疾病预测模型,但它们不希望共享患者的具体医疗数据,以保护患者隐私。
这时,它们可以采用联邦学习。
每家医院在自己的数据上训练模型的一部分,然后将这部分模型的结果分享给其他医院。
通过这种方式,各个医院可以在不暴露原始数据的情况下,共同训练出一个更准确的预测模型。
API
全称是“Application Programming Interface”,中文可以翻译为“应用程序编程接口”。
它是不同软件应用程序之间的通信桥梁,允许不同的软件组件或系统之间进行数据交换和功能调用。
简单来说,API就像是一个翻译,让不同的软件或系统能够“说”同一种“语言”,从而实现互相协作和数据共享。