研0小白 开始理解一些概念

1.Anaconda  

以前写python,一个电脑上就一个python环境和pycharm就够了,现在遇到项目需求为不同的python环境,如打包为32位的可执行文件、openopc只有python2.7_32位才能使用等。就是可以便捷获取包且对包能够进行管理,同时对环境可以统一管理的发行版本。不同环境切换。

    conda source activate  pip install --    show

2、Python

四个空格

列文件

3.jupyter notebook

4.kimi

5机器学习基础概念:分类模型/预测模型

### 分类模型(Classification Model)

- **定义**:分类模型是用于区分数据点属于不同类别或标签的算法。它们通常用于二分类问题(如垃圾邮件检测)和多分类问题(如图像中的对象识别)。

- **工作方式**:分类模型通过分析带有标签的训练数据来学习如何识别数据中的模式和边界。之后,它们利用这些学到的模式来预测未知数据点的类别。

- **常见算法**:逻辑回归、决策树、随机森林、支持向量机(SVM)、神经网络等。

例子:电子邮件垃圾邮件过滤器就是一个分类模型,它将电子邮件分为“垃圾邮件”和“非垃圾邮件”;另一个例子是医学诊断,将病人分为“健康”或某种“疾病”类别。

### 预测模型(Predictive Model

- **定义**:预测模型旨在预测一个连续的数值,例如房价、股票价格或销售额。它们通常用于回归问题。

- **工作方式**:预测模型分析历史数据中的关系和趋势,然后利用这些信息来预测未来的数值。它们可以基于简单的线性关系或复杂的非线性模式。

- **常见算法**:线性回归、岭回归、LASSO回归、决策树回归、随机森林回归、梯度提升机(GBM)、神经网络等。房价预测模型可以根据房屋的特征(如大小、位置、年龄等)来估计其市场价值。

### 两者的相似之处

- **基于数据**:两者都依赖于数据来学习如何进行预测或分类。

- **训练过程**:都需要通过训练数据集来“训练”,即调整模型的参数以最小化预测误差。

- **评估方法**:都需要使用测试数据集来评估模型的性能,常用的评估指标包括准确率、召回率、F1分数、均方误差(MSE)等。

### 两者的不同之处

- **输出类型**:分类模型输出离散的类别标签,而预测模型输出连续的数值。

- **应用场景**:分类模型常用于确定对象的类别,预测模型常用于估计数值型的结果。

- **算法选择**:虽然某些算法如神经网络可以用于分类和回归,但特定问题可能更适合特定的算法。

6.training/validation/test

训练集(Training Set)

目的:训练集用于训练模型。模型通过学习训练集中的数据来识别模式和关系。

使用方式:在监督学习中,训练集包含输入特征和相应的标签或输出。模型通过最小化预测输出和实际标签之间的差异来调整其参数。

重要性:训练集是模型学习的基础,其质量和大小直接影响模型的学习能力。

验证集(Validation Set)

目的:验证集用于在模型训练过程中进行模型选择和超参数调优。它帮助研究者评估不同模型配置的性能,并选择最佳模型。

使用方式:在训练过程中,模型在训练集上进行训练,并在验证集上进行评估。这有助于防止模型过度拟合训练数据。

重要性:验证集提供了一个独立于训练集的评估,帮助研究者理解模型在新数据上的表现。

测试集(Test Set)

目的:测试集用于最终评估模型的性能。它提供了一个模型在未见过的数据上的表现的度量。

使用方式:一旦模型在训练集和验证集上训练并优化完成,它将在测试集上进行最终评估。测试集通常在模型训练过程中不被使用,以确保评估结果的公正性和准确性。

重要性:测试集是评估模型泛化能力的关键,它帮助研究者了解模型在实际应用中的表现。

重要概念

交叉验证:一种技术,其中数据集被进一步细分,模型在多个训练/验证集的组合上进行训练和验证,以提高评估的可靠性。

过拟合:当模型在训练集上表现很好,但在验证集或测试集上表现较差时,可能发生了过拟合。

泛化能力:模型在新、未见过的数据上的表现能力。一个好的模型应具有良好的泛化能力。

工作流程示例

数据准备:收集数据并进行预处理。

数据划分:将数据分为训练集、验证集和测试集。

模型训练:使用训练集训练模型。

模型评估:在验证集上评估模型,并调整模型参数或选择不同的模型。

模型选择:选择在验证集上表现最佳的模型。

最终测试:在测试集上评估最终模型,以获得模型泛化能力的估计。

通过这种方式,研究者可以确保模型不仅在训练数据上表现良好,而且能够泛化到新的数据上。

7分类模型和预测模型的评价指标

### 分类模型的评价指标

1. **准确率(Accuracy)**:

   - 准确率是最直观的指标,表示模型正确预测的样本数占总样本数的比例。例如,如果你的模型预测了100个样本,其中有90个预测正确,准确率就是90%。

2. **精确度(Precision)**:

   - 精确度衡量的是模型预测为正类(如疾病)中,实际为正类的比例。如果你的模型说有10个人有病,实际上这10个人都有病,精确度就是100%。

3. **召回率(Recall)或真正率(True Positive Rate, TPR)**:

   - 召回率衡量的是所有实际为正类的样本中,被模型正确预测为正类的比例。如果你的模型在100个实际有病的人中找出了90个,召回率就是90%。

4. **F1分数(F1 Score)**:

   - F1分数是精确度和召回率的调和平均数,它试图同时考虑这两个指标。F1分数越高,表示模型在精确度和召回率之间取得了较好的平衡。

5. **混淆矩阵(Confusion Matrix)**:

   - 混淆矩阵是一个表格,显示了模型预测的正负类与实际的正负类的对比。它包括真正例(TP)、假正例(FP,即误报)、真负例(TN,即正确拒绝)和假负例(FN,即漏报)。

6. **ROC曲线和AUC**:

   - 接收者操作特征曲线(ROC Curve)和曲线下面积(Area Under the Curve, AUC)衡量模型在所有可能的分类阈值上的性能。AUC值越接近1,表示模型的性能越好。

### 预测模型的评价指标

1. **均方误差(Mean Squared Error, MSE)**:

   - 均方误差衡量的是模型预测值与实际值之间差异的平方的平均值。MSE越小,表示模型的预测越准确。

2. **均方根误差(Root Mean Squared Error, RMSE)**:

   - 均方根误差是MSE的平方根,它以与原始数据相同的单位表示预测误差。RMSE越小,表示模型的预测越准确。

3. **平均绝对误差(Mean Absolute Error, MAE)**:

   - 平均绝对误差衡量的是模型预测值与实际值之间差异的绝对值的平均值。MAE对异常值不太敏感,是一个更稳健的误差度量。

4. **R²分数(R-squared)**:

   - R²分数衡量的是模型捕捉到的数据可变性的比例。R²值越接近1,表示模型的解释力越强,越能解释数据的变化。

5. **相关系数(Correlation Coefficient)**:

   - 相关系数衡量的是模型预测值与实际值之间的线性关系强度。相关系数越接近1或-1,表示模型的预测与实际值之间的关系越强。

8缺失机制:MCAR,MAR,MNAR

### 1. 完全随机缺失(MCAR, Missing Completely at Random)

- **定义**:数据的缺失完全是随机的,与数据集中的其他观测值无关,也与缺失值本身的潜在值无关。

- **区分点**:缺失与任何变量都不相关,因此理论上不会引入偏差。

- **例子**:假设在一个班级的数学考试中,学生的试卷随机地有几道题因为墨水褪色而无法评分。如果这种褪色与题目的难易程度、学生的成绩或其他任何特征无关,那么这就是MCAR。

### 2. 随机缺失(MAR, Missing at Random)

- **定义**:数据的缺失与数据集中的其他观测值有关,但与缺失值本身的潜在值无关。

- **区分点**:缺失与数据集中的其他变量相关,但一旦控制了这些变量,缺失就变得随机了。

- **例子**:继续上述考试的例子,如果发现成绩较低的学生更可能在最后几道难题上出现墨水褪色,这可能是因为他们在这上面花了更多时间,导致墨水褪色。这种情况下,缺失与已知的成绩(其他观测值)有关,但与题目本身是否会被正确回答(潜在值)无关。

### 3. 非随机缺失(MNAR, Missing Not at Random)

- **定义**:数据的缺失与数据集中的其他观测值和缺失值本身的潜在值都有关。

- **区分点**:缺失既与数据集中的其他变量有关,也与缺失数据的潜在值有关,这可能会引入偏差。

- **例子**:如果在一个健康研究中,受试者在得知自己的血压读数非常高后,拒绝提供进一步的血压数据。这种情况下,缺失的血压数据与受试者已知的高血压状况(其他观测值)和他们可能的更高血压读数(潜在值)有关。

### 总结:

- **MCAR**:缺失完全随机,与任何数据无关。

- **MAR**:缺失看似随机,但实际上与数据集中的其他变量有关。

- **MNAR**:缺失与数据的潜在值有关,可能会引入严重的偏差。

MCAR:就像有时候我们无意中忘记做某事,与任何事情无关。

MAR:类似于我们可能因为对某事不太关心而不去做,与我们已知的态度有关,但与我们可能采取的具体行动无关。

MNAR:就像我们因为某种强烈的情感或动机而故意不做某事,既与我们已知的态度有关,也与我们可能采取的具体行动有关。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值