蓝棠-CSDN博客

原创编码基础查询网站

python常用模块用法例程技术博客

2021-06-08 15:58:25 317 1

原创统计学概率论与机器学习相关博客

统计学大数定律与中心极限定理机器学习

2021-08-10 10:31:03 377

原创 HIVE-sql使用到的博客

Hive字符串转为map,array,去重arrayLateral View（行转列）hive之array操作

2021-08-05 15:34:41 256

SQL第一节基础概念（与excel对应）基本含义数据来源Hive SQL查询语法语法和使用1,select2，group by*3.聚合函数4.行转列第一节基础概念（与excel对应）基本含义库（文件夹）表（Excel名称）字段（Excel第一行，包含字段名，字段数据类型、注释）分区字段（sheet表，一般是日期，相当于在查询的时候提升速度）(必须限制分区，否则hive会报错)数据来源数据地图（查寻需要的表）KwaiBI(查询平台)Hive SQL查询语法select[all | d

2021-06-10 20:20:44 1507 2

原创 6.8，问卷数据指标计算（编码记忆点）

问卷数据指标计算（编码记忆点）数据准备和样本筛选按数据框的某几列计算简单统计量生成新列（自动处理缺失值）dataframe按条件删除某些行（单一条件、且条件）excel自动写入函数列表列表生成器列表特定位置数据插入检验参考链接均值T检验模块比例检验模块数据准备和样本筛选按数据框的某几列计算简单统计量生成新列（自动处理缺失值）#最小值k['CHA_12'] = k['C10.1']-k[['C10.2_SQ1','C10.2_SQ2','C10.2_SQ3','C10.2_SQ4','C10.2_SQ

2021-06-08 15:32:21 331

原创集成学习-案例分析（幸福感预测）（待完成）

集成学习-案例分析（幸福感预测）案例背景数据处理数据特征查看数据预处理数据增广特征选择模型建立案例背景幸福感是一个古老而深刻的话题，是人类世代追求的方向。与幸福感相关的因素成千上万、因人而异，大如国计民生，小如路边烤红薯，都会对幸福感产生影响。该案例为幸福感预测这一经典课题，希望在现有社会科学研究外有其他维度的算法尝试，结合多学科各自优势，挖掘潜在的影响因素，发现更多可解释、可理解的相关关系。来说，我们需要使用包括个体变量（性别、年龄、地域、职业、健康、婚姻与政治面貌等等）、家庭变量（父母、配偶、子

2021-05-19 00:32:58 257

原创 Stacking集成学习

Stacking集成学习Stacking步骤实现（待码）Stacking步骤如下图：实现（待码）由于sklearn并没有直接对Stacking的方法，因此我们需要下载mlxtend工具包(pip install mlxtend)!pip3 install mlxtend

2021-05-14 00:50:39 296

原创集成学习之blending

集成学习之blending方法实现步骤介绍方法优劣实现联系（补做）方法实现步骤介绍1、将数据集划分为训练集和测试集，假设有10000个样本，训练集占（80%，8000），测试集占（20%，2000）。然后再将训练集划分为训练集和验证集，其中训练集占70%，验证集占（30%，2400）。2、通过K个同质或不同质的基训练器，以训练集数据进行拟合，将拟合得到的模型对验证集和测试集数据进行预测，将拟合结果作为新的变量标签加入各样本。3、这时，每个样本都有K个基础模型预测结果的变量，将这K个变量作为自变量，利

2021-05-12 00:35:16 330

原创集成学习之XGBoost

先打个卡，随后整理补全

2021-04-27 00:13:47 164

转载集成学习之前向分步算法与梯度提升决策树GBDT

集成学习之前向分步算法与梯度提升决策树GBDT前向分步算法加法模型向前分步算法前向分步算法与Adaboost的关系梯度提升决策树(GBDT)基于残差学习的提升树算法梯度提升决策树算法(GBDT)代码实践（待补充）前向分步算法引用源github：https://github.com/pandali1/DataScience/tree/main/%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0/ch3加法模型Adaboost的算法内容，我们需要通过计算M个基本分类器，每个分类器的

2021-04-24 01:03:22 369

原创集成学习之boosting中Adaboost算法

集成学习之boosting中Adaboost算法前言boosting方法Adaboost算法原理算法步骤第一步初始化样本权重第二步迭代生成分类器第三步组成分类器优缺点sklearn算法实现数据读取数据处理及训练集拆分（两类别）弱分类器（单层决策树）adaboost(基分类器为决策树)结果对比分析：对比决策边界前言Bagging方法：通过bootstrap方式对全样本集进行抽样，然后根据抽取出的每一个样本集，使用同一种基本模型进行拟合，然后投票得出最终的预测。基本思想是通过降低方差来提高预测精度。Boo

2021-04-21 00:09:07 1010

转载集成学习之bagging

这里写目录标题bagging思路和算法bagging的案例分析(基于sklearn，介绍随机森林的相关理论以及实例)树模型bagging之随机森林sklearn实例bagging思路和算法投票法提到提到，希望各个模型之间具有较大的差异性，而实际操作中的模型却往往是同质的，因此一个简单的思路是通过不同的采样增加模型的差异性。Bagging（bootstrap aggregating），其含义是自助聚合。Bagging的核心在于自助采样(bootstrap)，首先我们随机取出一个样本放入采样集合中，再把

2021-04-18 00:14:14 392

原创集成学习之投票法

投票法投票法简介基本实现使用案例投票法简介基本实现Sklearn提供了 VotingRegressor 与 VotingClassifier两个投票方法，两个模型的操作方式相同，采用相同参数，列表中每个模型采用Tuple的结构表示，第一个元素代表名称，第二个元素代表模型，要保证每个模型必须拥有唯一的名称。一些模型可能需要一些预处理，可以通过定义管道实现。from sklearn.linear_model import LogisticRegressionfrom sklearn.svm im

2021-04-14 23:56:47 455

转载集成学习上——统计学习建模流程

集成学习上——统计学习建模流程机器学习的三大任务1.回归2.分类3.无监督学习构建机器学习项目的流程及对基本回归模型和衍生模型的掌握一、以线性回归为例使用sklearn构建机器学习项目的完整流程1.明确项目任务：回归/分类2.搜集数据集并选择合适的特征3.选择度量模型性能的指标4.选择具体的模型并进行训练以优化模型5.评估模型的性能并调参二、基本的回归模型及其衍生模型基本多元线性回归多项式回归广义可加模型（GAM）回归树支持向量回归SVR机器学习模型优化基础一、训练均方误差与测试均方误差二、偏差和方差的分解

2021-04-04 00:54:42 1635

原创评估模型的性能并调参

评估模型的性能并调参网格搜索和随机网格搜索混淆矩阵和ROC曲线（类别为两类）引用链接网格搜索和随机网格搜索# 使用网格搜索进行超参数调优：# 方式1：网格搜索GridSearchCV()from sklearn.model_selection import GridSearchCVfrom sklearn.svm import SVCimport timestart_time = time.time()pipe_svc = make_pipeline(StandardScaler(),SV

2021-03-30 00:03:54 190

原创 Datawhale集成Task5——掌握基本的回归模型

sklearn构建完整回归模型2.2使用sklearn构建完整的分类项目（参考Datawhale集成学习资料）剩余问题一、搜集数据，并选择合适的变量，此处选用鸢尾花数据集二、选择度量模型的指标三、选择具体模型进行训练1、逻辑回归2、贝叶斯判别3、降维分类的判别分析4、朴素贝叶斯分类5、决策树6、支持向量机SVM（线性可分，非线性）（1）线性可分（2）非线性2.2使用sklearn构建完整的分类项目（参考Datawhale集成学习资料）剩余问题1、各类分类模型的适用场景及优缺点2、支持向量机和决策树的

2021-03-28 00:55:36 201

原创 Datawhale task3 优化基础模型“方差与偏差部分”

机器学习模型优化基础遗留问题：1.自变量个数多于样本量的时候，为什么X^tX不可逆2.讲岭回归惩罚项选择的时候，回归模型的参数变小，模型方差就变小，可能中间有些推导（a）训练均方误差与测试均方误差过拟合：可以看出当模型的训练均方误差达到很小时，测试均方误差反而很大，但是我们寻找的最优的模型是测试均方误差达到最小时对应的模型，因此基于训练均方误差达到最小选择模型本质上是行不同的。正如上右图所示：模型在训练误差很小，但是测试均方误差很大时，我们称这种情况叫模型的过拟合。（b）偏差和方差的分

2021-03-22 23:55:34 818

原创 DataWhale集成学习Task2--掌握基本的回归模型

一、构建机器学习项目的流程二、掌握基本的回归模型及其衍生模型一、使用sklearn构建机器学习项目的完整流程明确项目任务：回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。以线性回归为例1.明确项目任务：回归/分类任务即为回归2.搜集数据集并选择合适的特征import pandas as pdimport numpy as npfrom sklearn import datasetsboston

2021-03-19 01:21:09 240

原创 datawhale集成学习01——机器学习的三大任务

机器学习的基本认知机器学习是一个用数学模型理解数据的过程，在理解数据的过程中通过对模型参数的不断调整来实现对数据特征的一种刻画，这种刻画一方面是对数据信息的一种集中和筛选，另一方面可以被用来对具有类似数据特征的事件进行预测。机器学习所利用的数据通常由一组向量组成，这组向量中的每个向量都是一个样本，每个向量共p+1个维度，前p个维度的每个维度我们称为一个特征，最后一个维度 ???????? 我们称为因变量(响应变量)。根据数据是否有因变量。机器学习可分为有监督学习和无监督学习。在有监督学习中，又可根据因变

2021-03-15 20:18:36 186

qq_43720646的博客

原创编码基础查询网站

原创统计学概率论与机器学习相关博客

原创 HIVE-sql使用到的博客

原创 Hive SQL基础及优化

原创 6.8，问卷数据指标计算（编码记忆点）

原创集成学习-案例分析（幸福感预测）（待完成）

原创 Stacking集成学习

原创集成学习之blending

原创集成学习之XGBoost

转载集成学习之前向分步算法与梯度提升决策树GBDT

原创集成学习之boosting中Adaboost算法

转载集成学习之bagging

原创集成学习之投票法

转载集成学习上——统计学习建模流程

原创评估模型的性能并调参

原创 Datawhale集成Task5——掌握基本的回归模型

原创 Datawhale task3 优化基础模型“方差与偏差部分”

原创 DataWhale集成学习Task2--掌握基本的回归模型

原创 datawhale集成学习01——机器学习的三大任务

原创数据分析任务五——作者信息关联

原创异常检测Task05：高维异常

原创论文分析Task4——论文种类分类（待补充）

原创异常检测——基于相似度的方法

原创 tensoflow入门实操计算机视觉介绍

原创数据分析任务3：论文代码统计

原创 datawhale异常检测——线性方法探究

原创论文作者统计（pandas字符串操作）

原创使用pandas读取数据并统计论文数据（2）2021-01-17

原创异常检测——基于统计学方法(参数方法、非参数方法、HBOS、pyod库)

原创异常检测常用方法及库2021-01-14

原创 datawhale数据分析task1（1）使用pandas读取数据并统计论文数据

空空如也

空空如也