自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 收藏
  • 关注

原创 MySQL知识点总结(3)

【代码】MySQL知识点总结(3)

2023-03-09 11:37:29 311 2

原创 MySQL知识点总结(2)

【代码】MySQL知识点总结(2)

2023-03-08 10:17:59 495

原创 MySQL知识点总结(1)

表:table表:table是数据库的基本组成单元,所有的数据都以表格的形式组织,目的是可读性强。一个表包括行和列:行:被称为数据/记录(data)列:被称为字段(column)学号(int) 姓名(varchar) 年龄(int)110 张三 20120 李四 21每一个字段应该包括哪些属性?字段名、数据类型、相关的约束。当一个文件的扩展名是.sql,并且该文件中编写了大量的sql语句,我们称这样的文件为sql脚本。

2023-03-07 10:57:14 490

原创 用逻辑回归制作评分卡

我们发现,不是所有的特征都可以使用这个分箱函数,比如说有的特征,像家人数量,就无法分出20组。于是我们将可以分箱的特征放出来单独分组,不能自动分箱的变量自己观察然后手写.接下来对所有特征按照选择的箱体个数和手写的分箱范围进行分箱。

2023-03-05 00:55:58 1568 2

原创 sklearn中的逻辑回归

比如在评分卡制作时,我们不仅需要判断客户是否会违约,还需要给出确定的”信用分“,而这个信用分的计算就需要使用类概率计算出的对数几率,而决策树和随机森林这样的分类器,可以产出分类结果,却无法帮助我们计算分数(当然,在sklearn中,决策树也可以产生概率,使用接口predict_proba调用就好,但一般来说,正常的决策树没有这个功能)。注意,此时我们的目的是,尽量保留原数据上的信息,让模型在降维后的数据上的拟合效果保持优秀,因此我们不考虑训练集测试集的问题,把所有的数据都放入模型进行降维。

2023-03-04 02:05:35 3559

原创 sklearn中的降维算法PCA和SVD

重要参数参数n_components,svd_solver,random_state,三个重要属性:components_, explained_variance_以及explained_variance_ratio_,无数次用到了接口fit,transform,fit_transform,与众不同的重要接口inverse_transform。

2023-03-03 13:45:04 649

原创 sklearn中的数据预处理和特征工程

到这里我们学习了常用的基于过滤法的特征选择,包括方差过滤,基于卡方,F检验和互信息的相关性过滤,讲解了各个过滤的原理和面临的问题,以及怎样调这些过滤类的超参数。通常来说,我会建议,先使用方差过滤,然后使用互信息法来捕捉相关性,不过了解各种各样的过滤方式也是必要的。经验来说,过滤法更快速,但更粗糙。包装法和嵌入法更精确,比较适合具体到算法去调整,但计算量比较大,运行时间长。当数据量很大的时候,优先使用方差过滤和互信息法调整,再上其他特征选择方法。使用逻辑回归时,优先使用嵌入法。

2023-03-02 15:31:08 511

原创 随机森林在sklearn中的实现

一.集成算法二.sklearn中的集成算法模块ensemble三.RandomForestClassifier(随机森林分类器)四.重要参数1.基评估器参数2.随机森林参数五.重要属性和接口六.Bagging的另一个必要条件七.RandomForestRegressor(随机森林回归器)八.机器学习中调参的基本思想九.Bagging vs Boosting十.随机森林代码实现十一.随机森林在乳腺癌数据上的调参

2023-03-01 13:16:34 1365

原创 决策树在sklearn中的实现

目录一.模块sklearn.tree二.建模基本流程三.DecisionTreeClassifier重要参数1.criterion2.random_state & splitter3.剪枝参数max_depth4.剪枝参数min_samples_leaf & min_samples_split5.max_features & min_impurity_decrease6.class_weight & min_weight_fraction_leaf7.总结

2023-02-27 21:36:03 1077 3

原创 HMM(隐马尔科夫模型)-理论补充2

一.大数定理二.监督学习方法1.初始概率2.转移概率3.观测概率三.Baum-Welch算法1.EM算法整体框架2.Baum-Welch算法3.EM过程4.极大化5.初始状态概率6.转移概率和观测概率四.预测算法1.预测的近似算法2.Viterbi算法1.定义2.递推:3.终止:五.总结

2023-02-26 21:28:33 452

原创 HMM-理论补充

一.隐马尔科夫模型二.HMM定义三.隐马尔科夫模型的贝叶斯网络四.HMM的确定五.HMM的参数六.HMM的参数总结七.HMM的两个基本性质1.齐次假设:2.观测独立性假设:八.HMM举例九.HMM的3个基本问题十.概率计算问题1.直接算法2.前向算法3.后向算法十一.前向后向概率的关系十二.单个状态的概率十三.γ的意义十四.两个状态的联合概率十五.期望十六.学习算法

2023-02-26 03:21:18 494

原创 主题模型实践

一.TF-IDF二.LSI三.相似度四.主题和主题分布五.LDA计算的相似度六.LDA过程七.主题八.主题和主题分布九.数据处理流程十.常用正则表达式十一.代码

2023-02-25 01:03:43 553

原创 主题模型-LDA

一.LDA的应用方向二.朴素贝叶斯的分析三.Gamma函数四.Beta分布五.Beta分布的期望六.LDA涉及的主要问题1.共轭先验分布①.二项分布的最大似然估计②.二项分布与先验举例③.上述过程的理论解释④.先验概率和后验概率的关系⑤.伪计数⑥.共轭先验的直接推广2.Dirichlet分布①.Dirichlet分布的期望②.Dirichlet分布分析③.对称Dirichlet分布④.对称Dirichlet分布的参数分析

2023-02-24 02:32:35 2327

原创 贝叶斯网络实践

一。朴素贝叶斯的假设二。朴素贝叶斯的推导三。高斯朴素贝叶斯Gaussian Naive Bayes四。多项分布朴素贝叶斯Multinomial Naive Bayes五。以文本分类为例1.分析2.分解3.拉普拉斯平滑4.对朴素贝叶斯的思考六。总结七。word2vec八。GaussianNB, MultinomialNB代码

2023-02-23 15:29:32 516

原创 贝叶斯网络

一。相对熵二。互信息三。信息增益四。概率五。贝叶斯公式带来的思考​编辑六。后验概率七。贝叶斯网络1.一个简单的贝叶斯网络2.全连接贝叶斯网络3.一个“正常”的贝叶斯网络八。贝叶斯网络的形式化定义九。特殊的贝叶斯网络十。通过贝叶斯网络判定条件独立—1十一。通过贝叶斯网络判定条件独立—2十二。通过贝叶斯网络判定条件独立—3十三。将上述结点推广到结点集

2023-02-22 19:23:39 891

原创 EM算法实践

一。多维GMM聚类:EM算法二。模型选择的准则三。EM算法无监督匪类鸢尾花数据四。GMM算法代码五。EM算法代码

2023-02-21 19:29:31 128

原创 EM算法总结

一。Jensen不等式:若f是凸函数二。最大似然估计三。二项分布的最大似然估计四。进一步考察1.按照MLE的过程分析2.化简对数似然函数3.参数估计的结论4.符合直观想象五。从直观理解猜测GMM的参数估计1.问题:随机变量无法直接(完全)观察到2.从直观理解猜测GMM的参数估计3.建立目标函数4.第一步:估算数据来自哪个组份5.估计每个组份的参数六。EM算法的提出1.通过最大似然估计建立目标函数2.问题的提出​编辑

2023-02-20 23:29:51 488

原创 聚类-理论补充2

一。拉普拉斯矩阵的定义二。谱聚类算法:未正则拉普拉斯矩阵三。谱聚类算法:随机游走拉普拉斯矩阵四。谱聚类算法:对称拉普拉斯矩阵五。进一步思考六。随机游走和拉普拉斯矩阵的关系七。标签传递算法

2023-02-19 22:38:09 580

原创 聚类-理论补充

一。聚类的定义二。相似度/距离计算方法总结1.闵可夫斯基距离Minkowski/欧式距离2.杰卡德相似系数(Jaccard)3.余弦相似度(cosine similarity)4.Pearson相似系数5.相对熵(K-L距离)6.Hellinger距离三。聚类的基本思想四。k-Means算法五。对k-Means的思考六。k-Means的公式化解释七。k-Means聚类方法总结八。Canopy算法九。聚类的衡量指标十。 ARI十一。AMI

2023-02-19 01:23:04 389

原创 SVG实践

一。分类器指标二。代码

2023-02-18 13:01:28 63

原创 SVM支持向量机

一。线性可分支持向量机二。使用核解决线性不可分三。分割超平面四。输入数据五。线性可分支持向量机六。推导目标函数七。线性支持向量机八。带松弛因子的SVM拉格朗日函数九。损失函数分析十。核函数1.多项式核函数2.高斯核十一。SVM中系数的求解:SMO十二。惩罚因子的影响十三。高斯核函数的影响十四。总结

2023-02-17 20:51:44 172

原创 XGBoost

一。XGBoost二。Kaggle简介三。数据预处理-清洗四。XGBoost代码

2023-02-16 23:02:32 226

原创 提升:GBDT-XGBoost-AdaBoost

一。提升的概念二。提升算法三。提升算法推导四。梯度近似五。梯度提升决策树GBDT六。参数设置和正则化七。衰减因子、降采样八。GBDT总结九。考虑使用二阶导信息十。决策树的描述十一。正则项的定义十二。目标函数计算十三。构造决策树的结构十四。XGBoost小结十五。Adaboost十六。Adaboost算法解释十七。前向分步算法十八。前向分步算法的含义十九。前向分步算法的算法框架二十。前向分步算法与AdaBoost二十一。基本分类

2023-02-16 03:00:44 123

原创 决策树和随机森林-理论补充2

一。决策树的过拟合 1.剪枝 2.随机森林二。剪枝1.剪枝总体思路:2.剪枝系数的确定3.剪枝算法三。Bootstraping四。OOB数据五。随机森林六。随机森林/Bagging和决策树的关系七。样本不均衡的常用处理方法 1.A类欠采样Undersampling 2.B类过采样Oversampling 3.B类数据合成Synthetic Data Generation

2023-02-15 16:08:15 164

原创 决策树和随机森林-原理补充

一。条件熵二。对决策树的解释三。决策树学习算法的特点1.ID32.C4.53.CART五。决策树的评价

2023-02-15 00:40:58 81

原创 回归-理论补充2

一。总平方和-残差平方和-R²二。局部加权回归三。线性回归与逻辑回归四。逻辑回归1.Logistic/sigmoid函数2.Logistic回归的损失函数五。Softmax回归(逻辑回归的延伸)

2023-02-13 22:57:02 57

原创 回归-理论补充

一。使用极大似然估计解释最小二乘法(误差)二。假设具有的三个性质1.假设的内涵性2.假设的简化性3.假设的发散性三。θ的解析式的求解过程(θ为系数)四。线性回归的复杂度惩罚因子(正则化)五。广义逆矩阵(违逆)六。梯度下降算法1.批量梯度下降算法2.随机梯度下降算法3.折中:mini-batch

2023-02-13 15:18:39 72

原创 数据清洗和特征选择

一。赔率二。数据清洗和数据处理

2023-02-13 00:18:05 66

原创 逻辑回归与k-means

一。模型的保存与加载二。逻辑回归的定义三。逻辑回归的损失函数四。逻辑回归-良/恶性乳腺癌肿分类五。LogisticRegression总结六。k-means(非监督学习)步骤七。k-means聚类分析案例八。k-means性能评估指标九。k-means总结

2023-02-11 02:26:46 205

原创 线性回归及岭回归

一。线性回归的定义二。损失函数(误差大小)1.正规方程2.梯度下降3.梯度下降和正规方程对比三。线性回归-波士顿房价数据案例四。过拟合与欠拟合1.欠拟合原因以及解决办法2.过拟合原因以及解决办法五。带有正则化的线性回归-岭回归

2023-02-10 02:13:55 897

原创 决策树及随机森林

一。认识决策树二。决策树的划分依据之一-信息增益三。常见决策树使用的算法四。决策树案例五。决策树的结构、本地保存六。决策树的优缺点以及改进七。集成学习方法-随机森林1.定义2.算法3.随机抽样4.有放回的抽样5.代码形式八。随机森林的优点九。总结

2023-02-09 04:28:03 226

原创 k-近邻算法及朴素贝叶斯算法

一。k-近邻算法的定义二。k近邻算法实例-预测入住位置三。k-临近算法优缺点四。精确率与召回率1.精确率2.召回率3.F1-score4.classification_report (每个类别精确率与召回率)五。朴素贝叶斯-贝叶斯公式六。拉普拉斯平滑系数七。朴素贝叶斯算法案例八。朴素贝叶斯分类优缺点九。网格搜索及交叉验证1.交叉验证2.超参数搜索-网格搜索

2023-02-07 23:48:06 344

原创 数据集-转换器-预估器

一。数据集划分1.获取数据集操作2.获取数据集返回的类型及操作3.数据集分隔4.代码实现二。转换器与预估器1.转换器(特征工程)2.估计器(机器学习算法的实现)①、用于分类的估计器:②、用于回归的估计器:③、估计器的工作流程

2023-02-06 12:15:15 151

原创 sklearn特征抽取

一。可用数据集1.scikit-learn2.UCI3.Kaggle二。特征工程是什么三。sklearn特征抽取1.字典特征抽取2.文本特征抽取①.案例:对三段话进行特征值化②.TfidfVectorizer语法3.数据的特征处理①.归一化②.标准化③.缺失值三。代码汇总

2023-02-04 11:30:23 645

原创 数据分析项目(2)

一。人口分析项目实现二。政治献金项目数据分析三。用户数据分析

2023-02-01 20:55:57 129

原创 数据分析项目(1)

一。乘客生还率二。欧洲杯案例三。股票数据预处理四。酒类消费数据统计五。城市数据练习(用法总结)

2023-01-30 20:32:58 878

原创 pandas时间序列

一。数据分组聚合练习(补充)1.分组聚合练习42.分组聚合练习5二。pandas时间序列1三。pandas时间序列2四。PM2.5案例

2023-01-29 01:37:41 124

原创 pandas基础及应用(2)

一。字符串离散化案例二。数据合并三。数据分组及索引四。数据分组聚合练习1五。字符串分组聚合练习2六。字符串分组聚合练习3

2023-01-28 12:45:53 191

原创 pandas基础及应用(1)

一。pandas与numpy二。pandas常用数据类型三。pandas之series的创建四。pandas之dataframe创建五。pandas读取csv与排序,索引六。pandas常用统计方法七。pandas之布尔索引及缺失数据的处理八。电影数直方图

2023-01-26 13:57:37 4021

原创 numpy基础及应用

一.什么是numpy二.numpy相关问题三.numpy数组的创建四.numpy索引,切片与计算五.numpy数组的形状六.numpy读取数据与转置七.numpy中的随机方法八.numpy中在nan位置填充平均值九.numpy实例1十.numpy实例2

2023-01-24 19:54:58 308

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除