PURE-li-CSDN博客

原创 MySQL知识点总结(3)

【代码】MySQL知识点总结(3)

2023-03-09 11:37:29 311 2

原创 MySQL知识点总结(2)

【代码】MySQL知识点总结(2)

2023-03-08 10:17:59 495

表：table表：table是数据库的基本组成单元，所有的数据都以表格的形式组织，目的是可读性强。一个表包括行和列：行：被称为数据/记录(data)列：被称为字段(column)学号(int) 姓名(varchar) 年龄(int)110 张三 20120 李四 21每一个字段应该包括哪些属性？字段名、数据类型、相关的约束。当一个文件的扩展名是.sql，并且该文件中编写了大量的sql语句，我们称这样的文件为sql脚本。

2023-03-07 10:57:14 490

原创用逻辑回归制作评分卡

我们发现，不是所有的特征都可以使用这个分箱函数，比如说有的特征，像家人数量，就无法分出20组。于是我们将可以分箱的特征放出来单独分组，不能自动分箱的变量自己观察然后手写.接下来对所有特征按照选择的箱体个数和手写的分箱范围进行分箱。

2023-03-05 00:55:58 1568 2

原创 sklearn中的逻辑回归

比如在评分卡制作时，我们不仅需要判断客户是否会违约，还需要给出确定的”信用分“，而这个信用分的计算就需要使用类概率计算出的对数几率，而决策树和随机森林这样的分类器，可以产出分类结果，却无法帮助我们计算分数（当然，在sklearn中，决策树也可以产生概率，使用接口predict_proba调用就好，但一般来说，正常的决策树没有这个功能）。注意，此时我们的目的是，尽量保留原数据上的信息，让模型在降维后的数据上的拟合效果保持优秀，因此我们不考虑训练集测试集的问题，把所有的数据都放入模型进行降维。

2023-03-04 02:05:35 3559

原创 sklearn中的降维算法PCA和SVD

重要参数参数n_components，svd_solver，random_state，三个重要属性：components_, explained_variance_以及explained_variance_ratio_，无数次用到了接口fit，transform，fit_transform，与众不同的重要接口inverse_transform。

2023-03-03 13:45:04 649

原创 sklearn中的数据预处理和特征工程

到这里我们学习了常用的基于过滤法的特征选择，包括方差过滤，基于卡方，F检验和互信息的相关性过滤，讲解了各个过滤的原理和面临的问题，以及怎样调这些过滤类的超参数。通常来说，我会建议，先使用方差过滤，然后使用互信息法来捕捉相关性，不过了解各种各样的过滤方式也是必要的。经验来说，过滤法更快速，但更粗糙。包装法和嵌入法更精确，比较适合具体到算法去调整，但计算量比较大，运行时间长。当数据量很大的时候，优先使用方差过滤和互信息法调整，再上其他特征选择方法。使用逻辑回归时，优先使用嵌入法。

2023-03-02 15:31:08 511

原创随机森林在sklearn中的实现

一.集成算法二.sklearn中的集成算法模块ensemble三.RandomForestClassifier(随机森林分类器)四.重要参数1.基评估器参数2.随机森林参数五.重要属性和接口六.Bagging的另一个必要条件七.RandomForestRegressor(随机森林回归器)八.机器学习中调参的基本思想九.Bagging vs Boosting十.随机森林代码实现十一.随机森林在乳腺癌数据上的调参

2023-03-01 13:16:34 1365

原创决策树在sklearn中的实现

目录一.模块sklearn.tree二.建模基本流程三.DecisionTreeClassifier重要参数1.criterion2.random_state & splitter3.剪枝参数max_depth4.剪枝参数min_samples_leaf & min_samples_split5.max_features & min_impurity_decrease6.class_weight & min_weight_fraction_leaf7.总结

2023-02-27 21:36:03 1077 3

原创 HMM(隐马尔科夫模型)-理论补充2

一.大数定理二.监督学习方法1.初始概率2.转移概率3.观测概率三.Baum-Welch算法1.EM算法整体框架2.Baum-Welch算法3.EM过程4.极大化5.初始状态概率6.转移概率和观测概率四.预测算法1.预测的近似算法2.Viterbi算法1.定义2.递推：3.终止：五.总结

2023-02-26 21:28:33 452

原创 HMM-理论补充

一.隐马尔科夫模型二.HMM定义三.隐马尔科夫模型的贝叶斯网络四.HMM的确定五.HMM的参数六.HMM的参数总结七.HMM的两个基本性质1.齐次假设：2.观测独立性假设：八.HMM举例九.HMM的3个基本问题十.概率计算问题1.直接算法2.前向算法3.后向算法十一.前向后向概率的关系十二.单个状态的概率十三.γ的意义十四.两个状态的联合概率十五.期望十六.学习算法

2023-02-26 03:21:18 494

原创主题模型实践

一.TF-IDF二.LSI三.相似度四.主题和主题分布五.LDA计算的相似度六.LDA过程七.主题八.主题和主题分布九.数据处理流程十.常用正则表达式十一.代码

2023-02-25 01:03:43 553

原创主题模型-LDA

一.LDA的应用方向二.朴素贝叶斯的分析三.Gamma函数四.Beta分布五.Beta分布的期望六.LDA涉及的主要问题1.共轭先验分布①.二项分布的最大似然估计②.二项分布与先验举例③.上述过程的理论解释④.先验概率和后验概率的关系⑤.伪计数⑥.共轭先验的直接推广2.Dirichlet分布①.Dirichlet分布的期望②.Dirichlet分布分析③.对称Dirichlet分布④.对称Dirichlet分布的参数分析

2023-02-24 02:32:35 2327

原创贝叶斯网络实践

一。朴素贝叶斯的假设二。朴素贝叶斯的推导三。高斯朴素贝叶斯Gaussian Naive Bayes四。多项分布朴素贝叶斯Multinomial Naive Bayes五。以文本分类为例1.分析2.分解3.拉普拉斯平滑4.对朴素贝叶斯的思考六。总结七。word2vec八。GaussianNB, MultinomialNB代码

2023-02-23 15:29:32 516

原创贝叶斯网络

一。相对熵二。互信息三。信息增益四。概率五。贝叶斯公式带来的思考编辑六。后验概率七。贝叶斯网络1.一个简单的贝叶斯网络2.全连接贝叶斯网络3.一个“正常”的贝叶斯网络八。贝叶斯网络的形式化定义九。特殊的贝叶斯网络十。通过贝叶斯网络判定条件独立—1十一。通过贝叶斯网络判定条件独立—2十二。通过贝叶斯网络判定条件独立—3十三。将上述结点推广到结点集

2023-02-22 19:23:39 891

原创 EM算法实践

一。多维GMM聚类：EM算法二。模型选择的准则三。EM算法无监督匪类鸢尾花数据四。GMM算法代码五。EM算法代码

2023-02-21 19:29:31 128

原创 EM算法总结

一。Jensen不等式：若f是凸函数二。最大似然估计三。二项分布的最大似然估计四。进一步考察1.按照MLE的过程分析2.化简对数似然函数3.参数估计的结论4.符合直观想象五。从直观理解猜测GMM的参数估计1.问题：随机变量无法直接(完全)观察到2.从直观理解猜测GMM的参数估计3.建立目标函数4.第一步：估算数据来自哪个组份5.估计每个组份的参数六。EM算法的提出1.通过最大似然估计建立目标函数2.问题的提出编辑

2023-02-20 23:29:51 488

原创聚类-理论补充2

一。拉普拉斯矩阵的定义二。谱聚类算法：未正则拉普拉斯矩阵三。谱聚类算法：随机游走拉普拉斯矩阵四。谱聚类算法：对称拉普拉斯矩阵五。进一步思考六。随机游走和拉普拉斯矩阵的关系七。标签传递算法

2023-02-19 22:38:09 580

原创聚类-理论补充

一。聚类的定义二。相似度/距离计算方法总结1.闵可夫斯基距离Minkowski/欧式距离2.杰卡德相似系数(Jaccard)3.余弦相似度(cosine similarity)4.Pearson相似系数5.相对熵(K-L距离)6.Hellinger距离三。聚类的基本思想四。k-Means算法五。对k-Means的思考六。k-Means的公式化解释七。k-Means聚类方法总结八。Canopy算法九。聚类的衡量指标十。 ARI十一。AMI

2023-02-19 01:23:04 389

原创 SVG实践

一。分类器指标二。代码

2023-02-18 13:01:28 63

原创 SVM支持向量机

一。线性可分支持向量机二。使用核解决线性不可分三。分割超平面四。输入数据五。线性可分支持向量机六。推导目标函数七。线性支持向量机八。带松弛因子的SVM拉格朗日函数九。损失函数分析十。核函数1.多项式核函数2.高斯核十一。SVM中系数的求解:SMO十二。惩罚因子的影响十三。高斯核函数的影响十四。总结

2023-02-17 20:51:44 172

原创 XGBoost

一。XGBoost二。Kaggle简介三。数据预处理-清洗四。XGBoost代码

2023-02-16 23:02:32 226

原创提升：GBDT-XGBoost-AdaBoost

一。提升的概念二。提升算法三。提升算法推导四。梯度近似五。梯度提升决策树GBDT六。参数设置和正则化七。衰减因子、降采样八。GBDT总结九。考虑使用二阶导信息十。决策树的描述十一。正则项的定义十二。目标函数计算十三。构造决策树的结构十四。XGBoost小结十五。Adaboost十六。Adaboost算法解释十七。前向分步算法十八。前向分步算法的含义十九。前向分步算法的算法框架二十。前向分步算法与AdaBoost二十一。基本分类

2023-02-16 03:00:44 123

原创决策树和随机森林-理论补充2

一。决策树的过拟合 1.剪枝 2.随机森林二。剪枝1.剪枝总体思路:2.剪枝系数的确定3.剪枝算法三。Bootstraping四。OOB数据五。随机森林六。随机森林/Bagging和决策树的关系七。样本不均衡的常用处理方法 1.A类欠采样Undersampling 2.B类过采样Oversampling 3.B类数据合成Synthetic Data Generation

2023-02-15 16:08:15 164

原创决策树和随机森林-原理补充

一。条件熵二。对决策树的解释三。决策树学习算法的特点1.ID32.C4.53.CART五。决策树的评价

2023-02-15 00:40:58 81

原创回归-理论补充2

一。总平方和-残差平方和-R²二。局部加权回归三。线性回归与逻辑回归四。逻辑回归1.Logistic/sigmoid函数2.Logistic回归的损失函数五。Softmax回归（逻辑回归的延伸）

2023-02-13 22:57:02 57

原创回归-理论补充

一。使用极大似然估计解释最小二乘法（误差）二。假设具有的三个性质1.假设的内涵性2.假设的简化性3.假设的发散性三。θ的解析式的求解过程（θ为系数）四。线性回归的复杂度惩罚因子（正则化）五。广义逆矩阵（违逆）六。梯度下降算法1.批量梯度下降算法2.随机梯度下降算法3.折中：mini-batch

2023-02-13 15:18:39 72

原创数据清洗和特征选择

一。赔率二。数据清洗和数据处理

2023-02-13 00:18:05 66

原创逻辑回归与k-means

一。模型的保存与加载二。逻辑回归的定义三。逻辑回归的损失函数四。逻辑回归-良／恶性乳腺癌肿分类五。LogisticRegression总结六。k-means（非监督学习）步骤七。k-means聚类分析案例八。k-means性能评估指标九。k-means总结

2023-02-11 02:26:46 205

原创线性回归及岭回归

一。线性回归的定义二。损失函数（误差大小）1.正规方程2.梯度下降3.梯度下降和正规方程对比三。线性回归-波士顿房价数据案例四。过拟合与欠拟合1.欠拟合原因以及解决办法2.过拟合原因以及解决办法五。带有正则化的线性回归-岭回归

2023-02-10 02:13:55 897

原创决策树及随机森林

一。认识决策树二。决策树的划分依据之一-信息增益三。常见决策树使用的算法四。决策树案例五。决策树的结构、本地保存六。决策树的优缺点以及改进七。集成学习方法-随机森林1.定义2.算法3.随机抽样4.有放回的抽样5.代码形式八。随机森林的优点九。总结

2023-02-09 04:28:03 226

原创 k-近邻算法及朴素贝叶斯算法

一。k-近邻算法的定义二。k近邻算法实例-预测入住位置三。k-临近算法优缺点四。精确率与召回率1.精确率2.召回率3.F1-score4.classification_report （每个类别精确率与召回率）五。朴素贝叶斯-贝叶斯公式六。拉普拉斯平滑系数七。朴素贝叶斯算法案例八。朴素贝叶斯分类优缺点九。网格搜索及交叉验证1.交叉验证2.超参数搜索-网格搜索

2023-02-07 23:48:06 344