机器学习方法:
线性回归和多元线性回归:用于建立基于线性关系的模型,适用于估计变量之间的关系和趋势。
逻辑回归:主要用于二元分类问题,例如预测是否发生某个事件。
决策树和随机森林:用于分类和回归任务,能够处理非线性关系和特征重要性分析。
支持向量机(SVM):适用于分类和回归问题,尤其在高维数据上表现出色。
神经网络:深度学习模型可以用于各种复杂的问题,但需要大量的数据和计算资源。
聚类算法:如K均值、DBSCAN、optics等,用于分析数据中的聚类结构。
时间序列分析:适用于预测时间序列数据的模型,如ARIMA、LSTM等。
贝叶斯方法:用于概率建模和不确定性分析,如朴素贝叶斯、贝叶斯网络等。
遗传算法:用于求解优化问题,可以在组合优化和参数调整中发挥作用。
强化学习:适用于需要智能决策的问题,如路径规划、资源分配等。
融合方法:将多个不同的模型或算法集成在一起,如集成学习和堆叠方法,以提高预测性能。
正则化:L1正则化通常会使得模型的参数变得稀疏,即某些参数为0,从而实现特征选择的功能;
L2正则化则可以防止模型参数变得过大,从而防止过度拟合;
Elastic Net正则化则综合了L1和L2正则化的优点,可以控制模型的稀疏性和平滑性。
统计参数估计方法:
最大似然估计(Maximum Likelihood Estimation,MLE):MLE是一种常用的参数估计方法,它试图找到最有可能生成观察数据的参数值。通过最大化似然函数,即观察数据的概率关于参数的函数,来估计参数。
矩估计(Method of Moments):矩估计使用样本矩来估计总体矩,并根据矩与参数之间的关系来估计参数值。矩的阶数决定了要估计的参数。
贝叶斯估计(Bayesian Estimation):在贝叶斯统计中,参数估计是基于贝叶斯定理进行的,考虑了参数的先验分布和观察数据的似然函数。它产生一个后验分布,表示参数的不确定性。
最小二乘法(Least Squares Estimation):最小二乘法用于估计回归模型的参数。它通过最小化观察数据与模型预测值之间的平方误差来估计参数。
主成分回归:主成分回归旨在处理多重共线性问题,即自变量之间存在高度相关性的情况。这种情况下,传统的多元线性回归可能导致回归系数估计不稳定或难以解释。
Spearman:Spearman是统计学中用于衡量两个变量之间的相关性的一种方法,通常用于测量非线性关系或不满足正态分布假设的数据。
非参数估计:非参数估计方法通常不假设数据遵循特定的分布,而是尝试通过观察数据的分布特点来估计参数,如核密度估计和分位数回归。
熵估计(Entropy Estimation):熵估计方法通过最大化数据集的熵来估计参数,通常用于离散分布的估计。
熵最小化(Minimum Entropy Estimation):与熵估计相反,熵最小化方法试图找到一个参数值,使得生成的分布的熵最小化。
矩最小二乘法(Method of Moments Least Squares):这是一种结合了矩估计和最小二乘法的方法,通常用于估计混合分布的参数。
EM算法(Expectation-Maximization Algorithm):EM算法是一种迭代方法,用于估计包含隐变量的概率模型的参数,特别适用于混合模型等情况。
分位数回归(Quantile Regression):分位数回归估计不同分位数下的条件分布参数,而不仅仅是均值和方差。
模型
回归模型:回归模型是一种用于描述和分析因变量与自变量之间关系的工具,可以用于预测、解释、优化和决策等多种任务。
有监督模型:有标签
无监督模型:无标签
计算机视觉
透视变换法
消隐点测距法
综合评价
熵值法:熵值法根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,其信息熵值越小,指标的离散程度越大, 该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。因此,可利用信息熵这个工具,计算出各个指标的权重,为多指标综合评价提供依据。
分类方法
决策树:简单的树状结构,解决二分类的概率问题,仅有单一输出。
随机森林:决策树的集合,决策树的结果视为一次投票
k近邻(KNN):对数据的局部结构非常敏感。计算量大,需要对数据进行规范化处理,使每个数据点都在相同的范围。当需要使用分类算法,且数据比较大的时候就可以尝试使用 KNN 算法进行分类了。k值一类中的个数
k-means(聚类):k值为聚类的个数,简单说,就是画一个圈,KNN 是让进来圈子里的人变成自己人,K-means 是让原本在圈内的人归成一类人。
bp神经网络:bp神经网络是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。使用最速下降法,通过反向传播来不断调整网络的权值和阈值(梯度下降,随机梯度下降,mini-batch梯度下降),使网络的分类错误率最小。
支持向量机(SVM):支持向量机需要对输入数据进行完全标记,仅直接适用于两类任务,应用将多类任务需要减少到几个二元问题。
XGboost:集成学习,利用多个弱预测模型,多个弱预测模型都是损失函数的梯度方向
逻辑回归(梯度下降法):由线性回归变化而来,解决二分类问题
朴素贝叶斯分类器:假设特征之间强(朴素)独立下运用贝叶斯定理为基础的简单概率分类。条件概率对比。