数据科学模型算法整理~

qbdl

已于 2022-07-03 18:15:09 修改

阅读量1.1k

点赞数 1

文章标签：数据分析

于 2022-07-03 17:08:44 首次发布

本文链接：https://blog.csdn.net/m0_59820603/article/details/125585207

版权

整理数据科学中的一些常见模型与算法以及一些数据处理方式,做个类似索引的内容，主要都是关键词，没什么具体内容。

一、矩阵与回归

y=Xa , 已知 X 和 y，求a

$a=(X^TX)^{-1}X^Ty$ (由于X不一定是方阵，所以需要通过乘X^T变成方阵，才有逆矩阵，而对y=X a同时左乘X^T然后同乘（X^TX）^{-1}即可得到结果）

具体公式及求解

1.数据结构与基本操作

2.数据加载与数据准备

3.数据统计分析

4.时间序列

1.创建子绘图区-subplot(s）

2.常用图表（极坐标，散点图，箱型图，饼图，直方图等）

3.坐标轴设置

4.标签设置

title——图表标题
xlabel,ylabel——X/Y轴坐标名
xticks,yticks——设置X/Y轴的刻度范围及显示标签 e.g plt.xticks(np.arange(3), ('Tom', 'Dick', 'Harry')

legend——图例位置

e.g plt.legend(bbox_to_anchor=(1, 1.15))__距离设定原点的距离

1、预测效率低

训练时，只需记住样本，快；

预测时，需计算待测样本与每个训练样本的距离，若有N个训练样本，就需N次距离计算，慢

2、 对高维、稀疏数据集预测效果差

高斯朴素贝叶斯——用于连续的高维数据

多项式朴素贝叶斯——稀疏计数型数据，如文本分类

伯努利朴素贝叶斯——稀疏计数型数据，如文本分类

...

基本思想：根据贪心策略，选用信息增益最大的一个特征𝒌 (如“性别”)对训练集进行划分，递归地，对划分后的各个子集使用同样的逻辑进行处理，如此重复，直到剩下的集合足够纯净，递归停止。
度量数据集不纯度的常用指标：信息熵（information entropy)，基尼值（Gini Value）
优点：直观，易于理解；计算复杂度不高；算法不受数据尺度影响，不需特征规范化预处理。
缺点：易过拟合，泛化性能差（需要进行剪枝/树集成的操作）