统计分析的基本概念
统计学习的定义
1,统计学习基于数据分布
2,样本规模影响模型精度
3,偏差与方差权衡重要
4,正则化避免过拟合
监督学习、无监督学习、半监督学习、强化学习
1.监督学习需标签数据
监督学习依赖于带有已知标签的数据集进行模型训练,通过比较预测值与真实值调
整模型参数。
2.无监督学习探索结构
无监督学习无需标签数据,通过聚类、降维等技术探索数据内在结构和隐藏模式。
3.半监督学习结合二者
半监督学习利用有限的标签数据和大量无标签数据共同训练模型,提高学习效率和
泛化能力。
4.强化学习试错优化
强化学习通过与环境的交互和试错,不断调整策略以获得最大化累积回报,适用于
序列决策问题。
统计学习方法三要素
1.模型
在机器学习中,数据的丰富性和 质量直接影响统计学习模型的性 能上限。高质量数据能训练出更 准确的模型。统计学习算法的选择和优化对于 提升模型性能至关重要。合适的 算法能更有效地从数据中提取特 征,提升预测精度.
2.:策略
1策略选择影响模型性能
2数据分布影响策略有效性
3特征选择优化策略表现
3算法
模型假设与验证
模型的假设条件
1.模型假设的重要性
在机器学习中,模型假设是预测准确性的基石。例如,线性回归假设变量间存在线性关系,
通过数据验证假设,可确保模型的有效应用。
2.数据分布影响假设
模型假设需符合实际数据分布,如支持向量机假设数据在高维空间可分,数据分布的多样
性直接影响假设的合理性。
3.交叉验证验证假设
通过交叉验证技术,如K折交叉验证,可以评估模型假设在不同数据集上的泛化能力,确
保模型假设的稳健性。
模型评估与选择
经验误差与过拟合
1.交叉验证避免过拟合
2.准确性与泛化性平衡
3.ROC曲线全面评估