自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 编码基础查询网站

python常用模块用法例程技术博客

2021-06-08 15:58:25 206 1

原创 统计学概率论与机器学习相关博客

统计学大数定律与中心极限定理机器学习

2021-08-10 10:31:03 303

原创 HIVE-sql使用到的博客

Hive字符串转为map,array,去重arrayLateral View(行转列)hive之array操作

2021-08-05 15:34:41 150

原创 Hive SQL基础及优化

SQL第一节基础概念(与excel对应)基本含义数据来源Hive SQL查询语法语法和使用1,select2,group by*3.聚合函数4.行转列第一节基础概念(与excel对应)基本含义库(文件夹)表(Excel名称)字段(Excel第一行,包含字段名,字段数据类型、注释)分区字段(sheet表,一般是日期,相当于在查询的时候提升速度)(必须限制分区,否则hive会报错)数据来源数据地图(查寻需要的表)KwaiBI(查询平台)Hive SQL查询语法select[all | d

2021-06-10 20:20:44 502 2

原创 6.8,问卷数据指标计算(编码记忆点)

问卷数据指标计算(编码记忆点)数据准备和样本筛选按数据框的某几列计算简单统计量生成新列(自动处理缺失值)dataframe按条件删除某些行(单一条件、且条件)excel自动写入函数列表列表生成器列表特定位置数据插入检验参考链接均值T检验模块比例检验模块数据准备和样本筛选按数据框的某几列计算简单统计量生成新列(自动处理缺失值)#最小值k['CHA_12'] = k['C10.1']-k[['C10.2_SQ1','C10.2_SQ2','C10.2_SQ3','C10.2_SQ4','C10.2_SQ

2021-06-08 15:32:21 263

原创 集成学习-案例分析(幸福感预测)(待完成)

集成学习-案例分析(幸福感预测)案例背景数据处理数据特征查看数据预处理数据增广特征选择模型建立案例背景幸福感是一个古老而深刻的话题,是人类世代追求的方向。与幸福感相关的因素成千上万、因人而异,大如国计民生,小如路边烤红薯,都会对幸福感产生影响。该案例为幸福感预测这一经典课题,希望在现有社会科学研究外有其他维度的算法尝试,结合多学科各自优势,挖掘潜在的影响因素,发现更多可解释、可理解的相关关系。来说,我们需要使用包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子

2021-05-19 00:32:58 161

原创 Stacking集成学习

Stacking集成学习Stacking步骤实现(待码)Stacking步骤如下图:实现(待码)由于sklearn并没有直接对Stacking的方法,因此我们需要下载mlxtend工具包(pip install mlxtend)!pip3 install mlxtend

2021-05-14 00:50:39 142

原创 集成学习之blending

集成学习之blending方法实现步骤介绍方法优劣实现联系(补做)方法实现步骤介绍1、将数据集划分为训练集和测试集,假设有10000个样本,训练集占(80%,8000),测试集占(20%,2000)。然后再将训练集划分为训练集和验证集,其中训练集占70%,验证集占(30%,2400)。2、通过K个同质或不同质的基训练器,以训练集数据进行拟合,将拟合得到的模型对验证集和测试集数据进行预测,将拟合结果作为新的变量标签加入各样本。3、这时,每个样本都有K个基础模型预测结果的变量,将这K个变量作为自变量,利

2021-05-12 00:35:16 126

原创 集成学习之XGBoost

先打个卡,随后整理补全

2021-04-27 00:13:47 91

转载 集成学习之前向分步算法与梯度提升决策树GBDT

集成学习之前向分步算法与梯度提升决策树GBDT前向分步算法加法模型向前分步算法前向分步算法与Adaboost的关系梯度提升决策树(GBDT)基于残差学习的提升树算法梯度提升决策树算法(GBDT)代码实践(待补充)前向分步算法引用源github:https://github.com/pandali1/DataScience/tree/main/%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0/ch3加法模型Adaboost的算法内容,我们需要通过计算M个基本分类器,每个分类器的

2021-04-24 01:03:22 168

原创 集成学习之boosting中Adaboost算法

集成学习之boosting中Adaboost算法前言boosting方法Adaboost算法原理算法步骤第一步初始化样本权重第二步迭代生成分类器第三步组成分类器优缺点sklearn算法实现数据读取数据处理及训练集拆分(两类别)弱分类器(单层决策树)adaboost(基分类器为决策树)结果对比分析:对比决策边界前言Bagging方法:通过bootstrap方式对全样本集进行抽样,然后根据抽取出的每一个样本集,使用同一种基本模型进行拟合,然后投票得出最终的预测。基本思想是通过降低方差来提高预测精度。Boo

2021-04-21 00:09:07 559

转载 集成学习之bagging

这里写目录标题bagging思路和算法bagging的案例分析(基于sklearn,介绍随机森林的相关理论以及实例)树模型bagging之随机森林sklearn实例bagging思路和算法投票法提到提到,希望各个模型之间具有较大的差异性,而实际操作中的模型却往往是同质的,因此一个简单的思路是通过不同的采样增加模型的差异性。Bagging(bootstrap aggregating),其含义是自助聚合。Bagging的核心在于自助采样(bootstrap),首先我们随机取出一个样本放入采样集合中,再把

2021-04-18 00:14:14 240

原创 集成学习之投票法

投票法投票法简介基本实现使用案例投票法简介基本实现Sklearn提供了 VotingRegressor 与 VotingClassifier两个投票方法,两个模型的操作方式相同,采用相同参数,列表中每个模型采用Tuple的结构表示,第一个元素代表名称,第二个元素代表模型,要保证每个模型必须拥有唯一的名称。一些模型可能需要一些预处理,可以通过定义管道实现。from sklearn.linear_model import LogisticRegressionfrom sklearn.svm im

2021-04-14 23:56:47 286

转载 集成学习上——统计学习建模流程

集成学习上——统计学习建模流程机器学习的三大任务1.回归2.分类3.无监督学习构建机器学习项目的流程及对基本回归模型和衍生模型的掌握一、以线性回归为例使用sklearn构建机器学习项目的完整流程1.明确项目任务:回归/分类2.搜集数据集并选择合适的特征3.选择度量模型性能的指标4.选择具体的模型并进行训练以优化模型5.评估模型的性能并调参二、基本的回归模型及其衍生模型基本多元线性回归多项式回归广义可加模型(GAM)回归树支持向量回归SVR机器学习模型优化基础一、训练均方误差与测试均方误差二、偏差和方差的分解

2021-04-04 00:54:42 894

原创 评估模型的性能并调参

评估模型的性能并调参网格搜索和随机网格搜索混淆矩阵和ROC曲线(类别为两类)引用链接网格搜索和随机网格搜索# 使用网格搜索进行超参数调优:# 方式1:网格搜索GridSearchCV()from sklearn.model_selection import GridSearchCVfrom sklearn.svm import SVCimport timestart_time = time.time()pipe_svc = make_pipeline(StandardScaler(),SV

2021-03-30 00:03:54 131

原创 Datawhale集成Task5——掌握基本的回归模型

sklearn构建完整回归模型2.2使用sklearn构建完整的分类项目(参考Datawhale集成学习资料)剩余问题一、搜集数据,并选择合适的变量,此处选用鸢尾花数据集二、选择度量模型的指标三、选择具体模型进行训练1、逻辑回归2、贝叶斯判别3、降维分类的判别分析4、朴素贝叶斯分类5、决策树6、支持向量机SVM(线性可分,非线性)(1)线性可分(2)非线性2.2使用sklearn构建完整的分类项目(参考Datawhale集成学习资料)剩余问题1、各类分类模型的适用场景及优缺点2、支持向量机和决策树的

2021-03-28 00:55:36 121

原创 Datawhale task3 优化基础模型“方差与偏差部分”

机器学习模型优化基础遗留问题:1.自变量个数多于样本量的时候,为什么X^tX不可逆2.讲岭回归惩罚项选择的时候,回归模型的参数变小,模型方差就变小,可能中间有些推导(a)训练均方误差与测试均方误差过拟合: 可以看出当模型的训练均方误差达到很小时,测试均方误差反而很大,但是我们寻找的最优的模型是测试均方误差达到最小时对应的模型,因此基于训练均方误差达到最小选择模型本质上是行不同的。正如上右图所示:模型在训练误差很小,但是测试均方误差很大时,我们称这种情况叫模型的过拟合。(b)偏差和方差的分

2021-03-22 23:55:34 517

原创 DataWhale集成学习Task2--掌握基本的回归模型

一、构建机器学习项目的流程 二、掌握基本的回归模型及其衍生模型一、使用sklearn构建机器学习项目的完整流程明确项目任务:回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。以线性回归为例1.明确项目任务:回归/分类任务即为回归2.搜集数据集并选择合适的特征import pandas as pdimport numpy as npfrom sklearn import datasetsboston

2021-03-19 01:21:09 140

原创 datawhale集成学习01——机器学习的三大任务

机器学习的基本认知机器学习是一个用数学模型理解数据的过程,在理解数据的过程中通过对模型参数的不断调整来实现对数据特征的一种刻画,这种刻画一方面是对数据信息的一种集中和筛选,另一方面可以被用来对具有类似数据特征的事件进行预测。机器学习所利用的数据通常由一组向量组成,这组向量中的每个向量都是一个样本,每个向量共p+1个维度,前p个维度的每个维度我们称为一个特征,最后一个维度 ???????? 我们称为因变量(响应变量)。根据数据是否有因变量。机器学习可分为有监督学习和无监督学习。在有监督学习中,又可根据因变

2021-03-15 20:18:36 120

原创 数据分析任务五——作者信息关联

作者信息关联采用知识点:图论所用python库:NetworkXNetworkx的一些操作任务说明• 学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;• 学习内容:构建作者关系图,挖掘作者关系• 学习成果:论文作者知识图谱、图关系挖掘数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:• 将论文第一作者与其他作者(论文非第一作者)构建图;• 使用图算法统计图中作者与其他作者的联系;社交网络分析图是复杂网络研究中的一个重要概念。Graph是用

2021-01-25 23:55:57 433

原创 异常检测Task05:高维异常

Task05:高维异常主要内容:Feature Bagging孤立森林1、高维数据异常检测特异性介绍高维数据异常检测是指在现实生活中,一些数据集往往具有较多的维度,数据维度的增加一方面使得数据的大小飞快增加,另一方面可能会出现数据稀疏性,这种状况被称为维度诅咒。维度诅咒会使得距离的计算出现问题,进而对聚类方法也造成了困难。特别在对距离的计算上,因为是高维的数据,所有点的距离几乎都是相等的,基于距离进行异常点判断可能会失效2、高维数据异常检测思路1、通过主成分法,进行降维,选取低特征值的降

2021-01-25 01:52:00 245

原创 论文分析Task4——论文种类分类(待补充)

论文分析Task4——论文种类分类(待补充)任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;文本分类涉及知识点及思路用于编码的sklearn.preprocessing.MultiLabelBinarizer思路1:TF-IDF+机器学习分类器直接使用TF-IDF对文本提取特征,使用分类器进行分类,分类器的选择上可以使用SVM、LR、XGboost等思路2:FastTextFastText是入门款的词向量,利用F

2021-01-23 01:05:01 178

原创 异常检测——基于相似度的方法

异常检测——基于相似度的方法Github主要内容包括:基于距离的度量基于密度的度量1.基于距离的度量基于距离的度量去解决问题的最简单方法是使用嵌套循环。 第一层循环遍历每个数据,第二层循环进行异常判断,需要计算当前点与其他点的距离,一旦已识别出多于 kkk 个数据点与当前点的距离在 DDD 之内,则将该点自动标记为非异常值。 这样计算的时间复杂度为O(N2)O(N^{2})O(N2),当数据量比较大时,这样计算是及不划算的。 因此,需要修剪方法以加快距离计算。1.1基于单元格的方法基于单

2021-01-22 02:02:18 204

原创 tensoflow入门实操计算机视觉介绍

tensoflow入门实操计算机视觉介绍import tensorflow as tffrom tensorflow import kerasfashion_mnist = keras.datasets.fashion_mnist#导入数据集(train_images,train_labels),(test_images,test_labels) = fashion_mnist.load_data()print(train_images.shape)#60000张,每张28*28import

2021-01-21 01:22:46 138

原创 数据分析任务3:论文代码统计

数据分析任务3:论文代码统计Github数据集涉及知识点:正则表达式数据框中各列处理apply函数和lambda的联合使用data[‘categories’] = data[‘categories’].apply(lambda x: x.split(’ ')[0])1.数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置;使用正则表达式完成匹配;完成相关的统计;

2021-01-20 01:48:09 250 2

原创 datawhale异常检测——线性方法探究

异常检测——线性相关方法breast-cancer-unsupervised-ad数据集主要涉及内容:- 线性回归- 主成分分析其余知识点:1、seaborn绘图https://blog.csdn.net/unixtch/article/details/788206542、seaborn各式热图绘制https://blog.csdn.net/sunchengquan/article/details/785732443、 f,ax = plt.subplots(figsize = (14,

2021-01-19 02:26:30 263

原创 论文作者统计(pandas字符串操作)

论文作者统计(pandas字符串操作)github涉及知识点如下:1、data[‘categories’].apply(lambda x: ‘cs.CV’ in x)结果理解2、sum函数的嵌套列表元素合并3、dataframe和series中value_counts函数的使用代码如下:# 导入所需的packageimport json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot as

2021-01-17 02:11:12 574 2

原创 使用pandas读取数据并统计论文数据(2)2021-01-17

datawhale数据分析task1(2)使用pandas读取数据并统计论文数据github1、python datetime处理时间CSDN博客详细介绍1.1获取指定的时间和日期。datetime(%Y,%m,%d,%H,%M,%S)datetime共有6个参数,分别代表的是年月日时分秒。其中年月日是必须要传入的参数,时分秒可以不传入,默认全为零。datatime(2017,9,24)Out:datatime.datatime(2017,9,24,0,0)1.2将Str和Unicod

2021-01-17 01:01:03 321 1

原创 异常检测——基于统计学方法(参数方法、非参数方法、HBOS、pyod库)

异常检测——基于统计学方法(参数方法、非参数方法、HBOS、pyod库)涉及知识点统计学异常检测的思想基于参数方法的异常检测基于非参数方法的异常检测HBOSPython中PyOD库生成toy example并调用HBOS实例1、统计学中对异常检测的思想统计学方法对异常检测的思想是在于假定和学习数据符合一个具体的模型或分布,而当给定的具体数据在假设模型中出现概率较低的时候,就认为是异常数据。 **其有效性高度依赖于对给定的模型所做的假定的统计模型是否成立**。在其中通过事先给定模型的方法

2021-01-16 02:01:56 1992 2

原创 异常检测常用方法及库2021-01-14

异常检测1、异常检测的含义识别与正常数据不同的数据,与预期行为差异大的数据。如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针的是少数事件。1.1 异常类别-** 点异常**:指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;上下文异常:又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易;群体异常:指的是在群体集合中的个体实例出现异常的情况,而该个体实例自身可

2021-01-14 11:49:17 170

原创 datawhale数据分析task1(1)使用pandas读取数据并统计论文数据

使用pandas读取数据并统计论文数据统计知识点记录(datawhale数据分析task1(1))1 json数据类型及其读取1.1 json数据类型含义1.2 json文件的python读写模块1.3 witn...as语句及open函数进行数据读取2 split函数及列表生成器嵌套循环2.1 split函数2.2 列表生成器嵌套循环统计知识点记录(datawhale数据分析task1(1))GitHub目标:统计2019年全年计算机各方向论文涉及内容;pandas基础操作数据集来源:论文数据

2021-01-14 01:24:20 201

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除