深度学习笔记(1):训练集和测试集

1. 定义

训练集是用于发现和预测潜在关系的一组数据。
测试集是用于评估预测关系强度和效用的一组数据。

2. 运用

测试集和训练集用于智能系统,机器学习,遗传编程和统计。

3. 二者关系

在训练分类器期间,只有训练集可用,不得使用测试集。测试集仅在测试分类器期间可用。

测试集是独立于训练数据,但是遵循与训练数据相同的概率分布的一组数据。 如果适合训练集的模型也适合测试集合,则发生最小过度拟合。

4. 使用方法

通常把已有数据集分成3部分。

  • 训练集 > 60%

  • 交叉验证集 > 20%

  • 测试集 > 20%

用训练集进行机器学习,然后使用交叉验证集(监督学习)进行调整,以提高参数,最后使用测试集,测试模型的准确性。以上样本数量分配并不是强制要求,只是经验提供。如果没有验证集,我们可以把数据分为70%训练集和30%测试集。

5. 举例

现实生活中,计算机没办法像人类一样认识事物,所以人类一直致力于这方面的研究。前辈们已经开发了许多方法,以实现计算机识别能力,比如SVM等。但是目前最火且具有最高识别度的还是深度学习。有许许多多的人投身于中,可以说我们赶上了时代的列车。

如何识别?

假如我们需要识别一辆小汽车。那么我们需要有大量的小汽车图片(训练数据),当我们有足够多的数据时,我们就可以进行机器学习了。我们告诉计算机,这些数据都是小汽车,计算机通过算法(这里使用深度学习算法)知道什么是小汽车,具备哪些特征。这时,我们就可以放入已有的其他图片(测试数据),计算机会把这些图片与经验库图片进行比对,然后告诉我们哪些是小汽车,哪些不是小汽车。

参考文章

神经网络1.训练和测试(train&test)以及相关关系解释–神经网络开篇

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
(1)Age:员工年龄 (2)Attrition:员工是否已经离职,1表示已经离职,2表示未离职,这是目标预测值; (3)BusinessTravel:商务差旅频率,Non-Travel表示不出差,Travel_Rarely表示不经常出差,Travel_Frequently表示经常出差; (4)Department:员工所在部门,Sales表示销售部,Research & Development表示研发部,Human Resources表示人力资源部; (5)DistanceFromHome:公司跟家庭住址的距离,从1到29,1表示最近,29表示最远; (6)Education:员工的教育程度,从1到5,5表示教育程度最高; (7)EducationField:员工所学习的专业领域,Life Sciences表示生命科学,Medical表示医疗,Marketing表示市场营销,Technical Degree表示技术学位,Human Resources表示人力资源,Other表示其他; (8)EmployeeNumber:员工号码; (9)EnvironmentSatisfaction:员工对于工作环境的满意程度,从1到4,1的满意程度最低,4的满意程度最高; (10)Gender:员工性别,Male表示男性,Female表示女性; (11)JobInvolvement:员工工作投入度,从1到4,1为投入度最低,4为投入度最高; (12)JobLevel:职业级别,从1到5,1为最低级别,5为最高级别; (13)JobRole:工作角色:Sales Executive是销售主管,Research Scientist是科学研究员,Laboratory Technician实验室技术员,Manufacturing Director是制造总监,Healthcare Representative是医疗代表,Manager是经理,Sales Representative是销售代表,Research Director是研究总监,Human Resources是人力资源; (14)JobSatisfaction:工作满意度,从1到4,1代表满意程度最低,4代表满意程度最高; (15)MaritalStatus:员工婚姻状况,Single代表单身,Married代表已婚,Divorced代表离婚; (16)MonthlyIncome:员工月收入,范围在1009到19999之间; (17)NumCompaniesWorked:员工曾经工作过的公司数; (18)Over18:年龄是否超过18岁; (19)OverTime:是否加班,Yes表示加班,No表示不加班; (20)PercentSalaryHike:工资提高的百分比; (21)PerformanceRating:绩效评估; (22)RelationshipSatisfaction:关系满意度,从1到4,1表示满意度最低,4表示满意度最高; (23)StandardHours:标准工时; (24)StockOptionLevel:股票期权水平; (25)TotalWorkingYears:总工龄; (26)TrainingTimesLastYear:上一年的培训时长,从0到6,0表示没有培训,6表示培训时间最长; (27)WorkLifeBalance:工作与生活平衡程度,从1到4,1表示平衡程度最低,4表示平衡程度最高; (28)YearsAtCompany:在目前公司工作年数; (29)YearsInCurrentRole:在目前工作职责的工作年数 (30)YearsSinceLastPromotion:距离上次升职时长 (31)YearsWithCurrManager:跟目前的管理者共事年数;

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值