《Python数据分析与挖掘实战》笔记（五）：数据建模

最新推荐文章于 2024-08-05 17:42:48 发布

郭大侠写leetcode

最新推荐文章于 2024-08-05 17:42:48 发布

阅读量5.7k

点赞数

本文链接：https://blog.csdn.net/u013547284/article/details/72874449

版权

 
 分类与预测 

  主要分类与预测算法 

  回归分析 确定预测值与其他变量关系。线性、非线性、Logistic、岭回归、主成分回归等 

  决策树 自顶向下分类 

  人工神经网络 用神经网络表示输入与输出之间的关系 

  贝叶斯网络 又称信度网络，是不确定知识表达和推理领域最有效的理论模型之一 

  支持向量机 将低维非线性可分转化为高维线性可分进行分析 

  主要回归模型分类 

  线性回归 因/自变量是线性关系 对一个或多个自/因变量线性建模，用最小二乘法求系数 

  非线性回归 因/自变量是非线性 非线性建模 

  Logistic回归 因变量为0或1 广义线性回归特例，利用Logistic函数将因变量控制0-1内表示取值为1的概率 

  岭回归 参与建模的自变量间具有多重共线性 改进的最小二乘法 

  主成分回归 同上 根据PCA提出，是参数估计的一种有偏估计 

  逻辑回归——Scikit-Learn 

  决策树——sklearn.tree；输出一个tree.dot文件，许安装Graphviz进行可视化 

  人工神经网络——keras 

  BP神经网络 信息正传播，误差逆传播 

  LM神经网络 给予梯度下降法和牛顿法的多层前馈神经网络，迭代次数少，收敛块，精度高 

  RBF径向基神经网络 能以任意精度逼近任意连续函数，输入层-隐含层是非线性，隐含层-输出成是线性，特别适合解决分类问题 

  FNN模糊神经网络 具有模糊权系数或输入信号是模糊两的神经网络，汇聚NN和模糊系统的有点 

  GMDH神经网络 也称多项式网络，网络结构在训练中变化 

  ANFIS自适应神经网络 NN镶嵌在一个全模糊的结构中，自动产生、修正、高度概括出最佳隶属函数和模糊规则 

  SVM——sklearn.svm 

  随机森林——sklearn.ensemble 

  朴素贝叶斯——sklearn.naive_bayes 

 
 建模的第一步都是建立一个空白的对象，然后设置模型参数，利用fit进行巡林啊，最后用predict方法预测结果，之后进行一些评估如score等 

 
 误差评价：绝对误差、相对误差、平均绝对误差、均方误差、均方根误差、平均绝对百分误差、Kappa统计、识别准确度、识别精确率、反馈率、ROC曲线、混淆矩阵 

 
 聚类分析 

  常用方法：划分方法、层次分析方法、基于密度的方法、基于网格的方法、给予模型的方法 

  常用算法：K-Means、K-中心点、系统聚类(多层次聚类) 

  评价方法：purity评价法(正确的比例)、RI评价法、F值评价法 

  聚类可视化工具——TSNE 

 
 关联规则：也称为购物篮分析，目标是找出各项之间的关系 

  常用算法：Apriori、FP-Tree、Eclat算法、灰色关联法 

 
 时序模式：给定一个已被观测的时间序列，预测该序列的未来值 

  常用模型：平滑法、趋势你合法、组合模型、AR模型、MA模型、ARMA模型、ARIMA、ARCH、GARCH模型及衍生 

  python主要时序算法函数：acf自相关，plot_acf画自相关系数图、pacf计算偏相关系数、plot_pacf画偏相关系数图、adfuller对观测值序列进行单位根检验、diff差分计算、ARIMA创建ARIMA时序模型、summary或summaty2给出ARIMA模型报告、aic/bic/hqic计算ARIMA模型的指标值、forecast预测、acorr_ljungbox检验白噪声 

 
 离群点检测 

  成因：数据源不同、自然变异、测量和收集误差 

  类型：全局离群点和局部离群点；数值型离群点和分类型离群点；一维离群点和多维离群点 

  检测方法：基于统计、基于邻近度、基于密度、基于聚类 

郭大侠写leetcode

关注

0
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫