【XJTU笔记】大数据科学与应用技术课程复习总结笔记

GabrielleGao229

已于 2024-06-23 22:40:51 修改

阅读量329

点赞数 3

分类专栏：机器学习课程笔记文章标签：笔记

于 2024-06-23 22:12:06 首次发布

本文链接：https://blog.csdn.net/GabrielleGao/article/details/139907312

版权

评分项目	详细描述	权重
闭卷考试	由每人出20分左右的题目组成	40-45%
课堂测试	选择题	5-10%
个人大作业	采用了什么模型选择了哪些特征作为input，为什么数据预处理 output是什么对输出的分析和别人的比较未来展望改进方向 training的过程 test的过程超参数是如何调整的	50%

Introduction

PAC - probably Approximately Correct learning model

$P(|f(x)-y|\le \epsilon)\ge 1-\delta$

Data Types

Continuous, Binary
Discrete, String
Symbolic

Big Data is high-volume, high-velocity, high-variety, demanding cost-effective, innovative forms of imformation processing, whose size is beyongd the ability of typical database software tools to capture, store, manage, and analyze.

Data Mining is the process of discovering patterns in large data set, including intersection of ML, statistic and database systems.

习题1：大数据的特点包括类型多、对处理实时性要求高、容量大

习题2：理想的数据挖掘算法得到的结果应该是：Useful, Hidden, Interesting

Source & Materials
KDnuggets, UCI Machine Learning Repository

Framework of ML

Step 1: function with unknown

$y=f_\theta(x)$

Step 2: define loss from training data

$L(\theta)$

Step 3: optimization

$\theta^* = \arg \min_{\theta} \mathcal{L}$

DM Techniques - Classification
Decision Trees, K-Nearest Neighbours, Neural Networks, Support Vector Machines

Evaluation method of model

Data Segmentation

hold-out 留出法 保持数据分布一致性，多次重复随机划分，测试集不能太大、不能太小

cross-validation 交叉验证法 k折交叉验证

boostrapping 自助法 有放回/可重复采样，数据分布有所改变，训练集与原样本集同规模
（包外估计 out-of-bag estimation）

Model performance

Error rate 错误率

$E(f;D)=\frac{1}{m}\sum_{i=1}^{m}I(f(x_i)≠y)$

**Accuracy 精度*D
$Acc(f;D)=\frac{1}{m}\sum_{i=1}^{m}I(f(x_i)=y)=1-E(f;D)$

Precision 查准率

$P=\frac{TP}{TP+FP}$

Recall 查全率

$R=\frac{TP}{TP+FN}$

$\frac{1}{F_1}=\frac{1}{2}(\frac{1}{R}+\frac{1}{P})$

Fβ

$\frac{1}{F_\beta}=\frac{1}{1+\beta^2}(\frac{\beta^2}{R}+\frac{1}{P})$

Confusion Matrix 混淆矩阵
在这里插入图片描述

P-R曲线

在这里插入图片描述

BEP 平衡点 Break-Even Point 查准率 = 查全率的取值

ROC 受试者工作特征曲线

在这里插入图片描述

AUC：ROC曲线下面积

How to Construct an ROC curve

在这里插入图片描述

Cost Matrix
Cost-sensitive error rate and cost curve

C(i,j)：Cost of misclassifying class j example as class i

Cost VS Accuracy

在这里插入图片描述

Lift Analysis

[模型解釋策略]Lift Chart, Permutation Importance, LIME

例题：假设目标客户占人群的5%，现根据用户模型进行打分排序，
取1000名潜在客户中排名前10%的客户，发现其中包含25名目
标客户，问此模型在10%处的提升度是多少?

答案：5

$\frac {P(A \mid B)}{P(A)}=\frac {\frac{25}{1000 \times 10\% }}{5\%}=\frac{25\%}{5\%}=5$

例题：我们通常将数据集划分为训练集，验证集和测试集进行模型的训
练，参数的验证需要在验证集上进行，参数确定后需要重新训练模型。

例题：当西瓜收购公司去瓜摊收购西瓜时既希望把好瓜都收走又保证收
到的瓜中坏瓜尽可能的少，请问他应该考虑什么评价指标？

正确：F1调和平均与BEP

例题：假设我们已经建立好了一个二分类模型,输出是0或1,初始阈值设
置为05 超过0.5概率估计就判别为1,否则就判别为0;如果我们现
在用另一个大于0.5的阈值，一般来说，下列说法正确的是：查准率会上升或不变，查全率会下降或不变

DM Techniques - Classification: K-Means, Sequential Leader, Affinity Propagation

DM Techniques – Association Rule

DM Techniques – Regression

Typical lssues : 缺少属性值Missing Attribute Values, 不同的编码/命名方案Different Coding/Naming Schemes, 不可行的值Infeasible Values, 不一致的数据InconsistentData, 异常值Outliers

Data Quality : Accuracy （准确性）, Completeness（完整性）, Consistency （一致性）, Interpretability（可解释性）, Credibility（可信性）, Timeliness（时效性）

数据集成 : 组合来自不同来源的数据。

数据缩减 : 特征选择、抽样

Privacy

在这里插入图片描述

No Free Lunch

Why bother so many different algorithms?

No algorithm is always superior to others.
No parameter settingis optimal over all problems.

Look for the best match between problem and algorithm.

Experience
Trial and Error

Factors to consider:

Applicability
Computational Complexity
Interpretability

Always start with simple ones.

Data Preprocessing

Data Cleaning 数据清洗

填充缺失值、更正不一致的数据、识别异常值和噪声数据。

缺失值

数据缺失类型分为三种：完全随机缺失、随机缺失、非随机缺失。
参考数据缺失类型

在这里插入图片描述

如何处理缺失数据？

忽略：删除有缺失值的样本/属性，最简单、最直接的方法，低缺失率时效果很好
手动填写缺失值：重新收集数据或领域知识，繁琐/不可行
自动填写缺失值：全局常数/平均值或中位数/最可能的值

例题：学生小明在调查问卷中没有回答下述问题:“你去年的工资收入和前年相比是否有所增加?”对这种情况最恰当的描述是: N/A而不是“数据未提供”

以下参考劉智皓 (Chih-Hao Liu) 機器學習_學習筆記系列(96)：區域性異常因子(Local Outlier Factor)

Outliers离群点 : Outliers≠Anomaly

Local Outliner Factor
关于LOF算法，它是基于空间密度来寻找异常值的，这里我们定义可达距离reachability distance = max(B点到离B第k近的点的距离, A和B的距离)

$reachability_{-}distance_{k}(A,B)=m a x\Big[k_{-}distance(B),distance(A,B)\Big]$
假设有两个点A和B，k_distance(B)代表的就是B点到离B第k近的点的距离，distance(A,B)则就是A和B的距离。所以这里的意思是：如果点和点之间相距够近，就将他们一视同仁，视为密度较高的区域。

而接下來我們會計算local reachability density: (平均距离)

$IRD_{k}(A)=\frac{1}{\left( \frac{\sum_{B\in{\cal N}_{k}(A)}reachability_{-}distance_{k}(A,B)}{|{N}_{k}(A)|}\right)}$

其中N_k為A點的neighbor。所以這個式子代表的就是，我們A點neighbor其reachability distance平均的倒數，所以我們可以說，如果IRD很大，代表以A點為中心的區域很密集，反之則是很疏鬆。
而當我們求得了IRD之後，我們最後就會計算

Local Outlier Factor:

$F_{k}(A)=\frac{\sum_{B\in N_{k}(A)}I R D_{k}(B)/I R D_{k}(A)}{\left|N_{k}(A)\right|}=\frac{1}{I R D_{k}(A)}\frac{\sum_{B\in N_{k}(A)}I R D_{k}(B)}{\left|N_{k}(A)\right|}$

我們可以看到LOF，他做的事情就是計算A所有neighbor的IRD值並且將其平均除以IRD(A)。而LOF在意義上來說，如果接近1代表，A和其Neighbor的空間密度都非常接近，如果小於1非常多，代表A的密度大於他的neighbor，也就是密度較高的區域，若大於1非常多，則代表A的密度小於他的neighbor。

例题：关于离群点的判定需要考虑相对距离因素，主要看其与近邻的平均距离与主要看其与近邻的最大距离均为错误

名义数据 (Nominal data) 与 序数数据 (Ordinal data) 对比：