momokofly-CSDN博客

原创因果推断what if

因果推断的个人学习总结（陆续补坑中）

2022-04-30 15:03:52 929 3

随机森林1 概述1.1 集成算法概述集成学习本身不是单独的机器学习算法，而是通过在数据上构建多个模型，集成所有模型的建模结果。集成算法的目标：集成算法会考虑多个评估器的建模结果，汇总之后得到一个综合的结果，以此来获取比单个模型更好的回归或分类表现。多个模型集成成为的模型叫做集成评估器（ensemble estimator），组成集成评估器的每个模型都叫做基评估器（base estimator）。通常来说，有三类集成算法：装袋法（Bagging）、提升法（Boosting）和stacking。B

2022-03-15 11:21:44 6034

原创 sklearn入门&决策树在sklearn中的实现

sklearn入门scikit-learn官网：http://scikit-learn.org/stable/index.html中文翻译网址：https://sklearn.apachecn.org/docs/master/2.html算法原理推荐书籍：《数据挖掘导论》、《机器学习》决策树1 概述非参数的有监督学习方法，决策树算法的本质是一种图结构通过对记录的特征的提问，对样本进行分类关于决策树的节点概念：1、根节点：没有进边，有出边，包含最初的，针对特征的提问2、中间节点：既有进边也

2022-03-15 11:05:26 4316

原创 sklearn与XGBoost

1 在学习XGBoost之前1.1 xgboost库与XGB的sklearn API陈天奇创造了XGBoost算法后，很快和一群机器学习爱好者建立了专门调用XGBoost库，名为xgboost。xgboost是一个独立的、开源的，并且专门提供梯度提升树以及XGBoost算法应用的算法库。它和sklearn类似，有一个详细的官方网站可以提供学习资料，并且可以与C、Python、R、Julia等语言连用，但需要单独安装和下载。xgboost documents：https://xgboost.readth

2022-03-14 14:50:34 6424 2

原创 sklearn中的朴素贝叶斯

2022-02-04 02:17:25 4750

原创 sklearn中的线性回归大家族

1 概述1.1 线性回归大家族回归是一种应用广泛的预测建模技术，这种技术的核心在于预测的结果是连续型变量。决策树、随机森林、支持向量机的分类器等分类算法的预测标签是分类变量，多以{0,1}来表示，而无监督学习算法（如CPA、Kmeans）并不是求解标签，注意加以区别。回归算法源于统计学理论，他可能是机器学习算法中产生最早的算法之一，其在现实中的应用非常广泛，包括使用其他经济指标预测股票市场指数，根据喷射流的特征预测区域内的降水量，根据公司的广告花费预测总销售额等等，只要一切基于特征预测连续型变量的需求，

2022-01-12 17:58:53 1179

原创 sklearn中的支持向量机SVM（下）

1 二分类SVC的进阶1.1 SVC用于二分类的原理复习sklearn中的支持向量机SVM（上）1.2 参数C的理解进阶有一些数据，可能是线性可分的，但在线性可分状况下训练准确率不能达到100%，即无法让训练误差为0。这种数据被称为“存在软间隔的数据”。这时需要决策边界能够忍受一小部分训练误差，而不能单纯地寻求最大边际。因为对于软间隔的数据来说，边际越大被分错的样本也就会越多，因此需要找出一个“最大边际”与“被分错的样本数量”之间的平衡。因此，引入松弛系数ζ\zetaζ和松弛系数的系数CCC作为一

2022-01-01 23:44:01 2576

原创爬虫-kaggle数据集Rain_in_AUS的Location气候分类

澳大利亚气象局和澳大利亚建筑规范委员会（ABCB）将澳大利亚不同地区不同城市的所在的气候区域进行划分，总共划分为八个区域，非常适合用来做分类。能够将Rain in Australia数据集中的地点Location转换成对应的气候，这个信息对于预测是否会下雨比较有用。在google上进行爬虫，爬出每个城市对应的经纬度，并保存在数据city_climate.csv当中。原视频链接：https://www.bilibili.com/video/av39338080/由于谷歌经常上不了，就另外找了个一个网站ht

2021-12-30 08:51:25 1369 1

原创 DW-matplotlib-Task5

本文主要介绍matplotlib中样式和颜色的使用，绘图样式和颜色是丰富可视化图表的重要手段。关于绘图样式常见的有4种方法，分别是修改预定义样式、自定义样式、rcparams和matplotlibrc文件。关于颜色使用有常见的5种表示单色颜色的基本方法和colormap多色显示的方法。一、matplotlib的绘图样式（style）在matplotlib中，要想设置绘制样式，最简单的方法是在绘制元素时单独设置样式。但当用户在做专题报告时，往往会希望保持整体风格的统一而不用对每张图一张张修改，因此mat

2021-12-27 00:01:08 180

原创 DW-matplotlib-Task4

一、Figure和Axes上的文本Matplotlib具有广泛的文本支持，包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Unicode支持。下面的命令是通过pyplot API和objected-oriented API分别创建文本的方式：pyplot APIOO APIdescriptiontexttext在Axes的任意位置添加texttitleset_title在Axes添加titlefigtexttext

2021-12-24 23:02:05 380

原创 sklearn中的支持向量机SVM（上）

1 概述支持向量机（SVM，也称为支持向量网络），是机器学习中获得关注最多的算法。它源于统计学习理论，是除了集成学习算法之外，接触到的第一个强学习器。从算法的功能来看，SVM囊括了很多其他算法的功能：从分类效力来讲，SVM在无论线性还是非线性分类中，都是明星般的存在。在实际应用来看，SVM在各种实际问题中都表现非常优秀。它在手写识别数字和人脸识别中应用广泛，在文本和超文本的分类中举足轻重，因为SVM可以大量减少标准归纳（standard inductive）和转换设置（transductive s

2021-12-22 15:39:56 1897 1

原创 DW-matplotlib-Task3

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams["font.sans-serif"] = ["SimHei"] #用来正常显示中文标签plt.rcParams["axes.unicode_minus"] = False #用来正常显示负号一、子图1.使用plt.subplots绘制均匀状态下的子图返回元素分别是画布和子图构成的列表，第一个数字为行，第二个为列。figsize参数可

2021-12-21 22:16:33 276

原创网易数据分析实战营12.21-12.23

为什么要学数据分析？数据分析是什么？数据分析流程业务理解数据收集数据处理数据分析图表制作报表绘制数据分析重在对业务的理解，这种理解其实是思维逻辑能力的体现，而数据分析工具是为了将对业务的理解以更加高效的方式呈现、传递出来，而建立思维逻辑和对业务进行数据分析的框架体系更重要。而进行数据分析过程中的可视化其实是在传递影响力。数据分析不需要太多的数理统计、理科专业知识以及高阶变成能力，更重要的是基于对业务的理解和分析，进而完成对数据的分析和对工具的操作。Day1：5步搞定A/B t.

2021-12-20 22:18:50 2422

原创 DW-matplotlib-Task2

一、概述1、matplotlib的三层APImatplotlib的原理是用Artist对象在画布(canvas)上绘制(Render)图形。步骤类似于：准备一块画布或画纸准备好颜料、画笔等制图工具作画因此，matplotlib有三个层次的API，如下表所示：API说明matplotlib.backend_bases.FigureCanvas绘图区，所有的图像都是在绘图区完成的matplotlib.backend_bases.Renderer渲染器，可以近似理解

2021-12-19 20:32:38 228

原创 sklearn中的聚类算法K-Means

1 概述1.1 无监督学习与聚类算法决策树、随机森林、逻辑回归虽然有着不同的功能，但却都属于“有监督学习”的一部分，即是说，模型在训练的时候，既需要特征矩阵XXX，也需要真实标签yyy。在机器学习中，还有很大一部分算法是属于“无监督学习”，无监督的算法在训练的时候只需要特征矩阵XXX，不需要标签。曾经学过的PCA算法就是无监督学习中的一种。聚类算法也是无监督学习的代表算法之一。聚类算法又叫做“无监督分类”，其目的是将数据划分成有意义或有用的组（或簇）。这种划分可以基于业务需求或建模需求来完成，也可以单

2021-12-15 20:29:45 11610

原创 DW-matplotlib-Task1

一、认识matplotlibMatplotlib是python中的一个2D绘图库，用来绘制各种静态、动态、交互式的图表。它是Python数据可视化库中的泰斗，已经成为python中公认的数据可视化工具，pandas和seaborn的绘图接口其实也是基于matplotlib所作的高级封装。二、一个最简单的绘图例子Matplotlib的图像是画在figure上的，每一个figure又包含了一个或多个axes（一个可以指定坐标系的子区域）。最简单的创建figure以及axes的方式是通过pyplot.su

2021-12-14 09:58:52 1331

原创 sklearn中的逻辑回归

1 概述1.1 名为“回归”的分类器逻辑回归是一种名为“回归”的线性分类器，它的本质是由线性回归变化而来的，一种广泛使用于分类问题中的广义回归算法。要理解逻辑回归从何而来，得先理解线性回归。线性回归是机器学习中最简单的回归算法，写作一个几乎人人熟悉的方程：z=a0+a1x1+a2x2+...+anxnz=a_0+a_1x_1+a_2x_2+...+a_nx_nz=a0+a1x1+a2x2+...+anxn其中，aaa被统称为模型的参数，其中a0a_0a0被称为截距（intercept

2021-12-12 22:23:29 2504

原创 sklearn中的降维算法PCA和SVD

1 概述1.1 什么叫“维度”对于数组和Series来说，维度就是功能shape返回的结果，shape中返回了几个数字，就是几维。索引以外的数据，不分行列的叫一维（此时shape返回唯一的维度上的数据个数），有行列之分叫二维（shape返回行*列），也称为表。一张表最多二维，复数的表构成了更高的维度。但一个数组中存在2张3行4列的表时，shape返回的是（2,3,4）。数组中的每一张表，都可以是一个特征矩阵（矩阵可以是任意正数维，但特征矩阵特指二维）或一个DataFrame，这些结构永远只有一张表，所

2021-12-06 09:39:21 2049

原创 sklearn中的数据预处理和特征工程

sklearn的学习笔记

2021-12-02 10:32:21 2172 1

原创 DW李宏毅机器学习Task6

Self-Supervised Learning自监督学习从芝麻街的人物引入自监督学习的相关概念方法。ELMo、BERT、ERNIE、Big BirdBERT是非常复杂的模型，包含340million个参数。模型变得越来越复杂，参数越来越多。自监督学习介绍有监督和自监督学习的区别：有监督学习数据中包含标签，自监督学习数据中不包含标签，是无监督学习的一种。BERT是Transformer Encoder,，最早用在自然语言处理中，也可以用在语音等问题中。Masking：Bert输入文字

2021-09-25 23:59:18 285

原创 DW李宏毅机器学习Task5

1、当梯度很小时，优化效果没有达到期望Optimization失败的原因：（1）local minimum；（2）saddle point（鞍点）gradient为0，会导致loss不下降，即卡在了critical point（包括local minimum和saddle point）。对于local minimum的问题可能无法解决，但是saddle point还是有可能解决。数学推导Taylar Series Approximation，泰勒展开式近似critical point是指，

2021-09-23 00:04:01 282

原创 DW李宏毅机器学习Task4

1、Deep Learning 的历史1958：Perceptron（linear model）1969：Perceptron has limitation1980s：Multi-layer perceptron（Do not have significant difference from DNN today）1986：Backpropagation（Usually more than 3 hidden layers is not helpful）1989：1 hidden layer i

2021-09-19 22:23:50 191

原创 DW李宏毅机器学习——Task3

1、误差的来源Where does the error come from ？并不是模型越复杂，误差越小error due to ‘bias’ and error due to ‘variance’理论上有一个最佳的函数f^\hat ff^，但我们没办法知道。利用训练数据，我们可以找到f∗f^*f∗，这个f∗f^*f∗只是f^\hat ff^的估计值。Bias and Variance of Estimator：估计随机变量xxx的均值：假设xxx的均值uuu，...

2021-09-17 23:49:31 204

原创 DW李宏毅机器学习Task2——Regression

回归的应用：（1）股票市场的预测（2）自动驾驶车（3）推荐系统应用例子：预测进化后的宝可梦CP值Step 1:ModelLinear model：y=b+∑wixiy=b+ \sum{}^{}w_ix_iy=b+∑wixixix_ixi：an attribute of input xxx (feature)wiw_iwi：weightbbb：biasStep 2:Goodness of FunctionSource:https://www.openintro.org

2021-09-16 01:05:14 236

原创 DW李宏毅机器学习Task1

通过Task1了解机器学习与AI，机器学习与深度学习的关联，以及机器学习中主要的学习方法。

2021-09-13 22:58:53 202

原创浅谈不平衡数据集的处理方法

因为最近实习需要进行一次技术分享，加上本身研究方向是抽样调查的逆抽样（针对总体中存在数量占比低于10%的稀有单元的情况），所以决定分享一下目前关于不平衡数据集的处理方法~1、不平衡数据集的概述及出现场景样本不平衡问题可以大致分为两种：（1）不同类别中样本数比率不平衡，但这些类别中的样本量都时足够多的；（2）存在某一类或多个类样本量较少（这种情况只能尽量补充该类的样本）当处理分类不平衡数据集时，通常更加关注样本量较少的类别，说明模型正确预测少样本类别的能力比正确预测多样本类别更加重要。例如：在信用

2021-08-05 11:00:27 2400

原创 DW集成学习Task8—案例二蒸汽量预测

背景：

2021-07-30 23:20:16 386 1

原创 DW集成学习Task7 Stacking和案例一

Stacking被称为“懒人算法”，因为它不需要花费过多时间的调参就可以得到一个效果不错的算法，也比bagging和boosting算法容易理解的多。Stacking严格来说并不是一种算法，而是对模型集成的一种策略。Stacking集成算法可以理解为一个两层的集成，第一层含有多个基础分类器，把预测的结果(元特征)提供给第二层，而第二层的分类器通常是逻辑回归，他把一层分类器的结果当做特征做拟合输出预测结果。1.Blending集成学习算法Blending：简化版的StackingBlending集成

2021-07-27 23:47:40 467

原创 DW集成学习Task6 Boosting作业

1.Adaboost的基本思路2.Adaboost与GBDT的联系与区别？3.Boosting与Bagging的区别，以及如何提升模型的精度？4.使用基本分类模型和Boosting提升的模型，并画出他们的决策边界。5.尝试使用XGboost模型完成一个具体的分类任务，并进行调参。参考：...

2021-07-25 18:21:49 199

原创 DW集成学习Task5 Bagging

（视频在Task4中已看完，主要写一下主要的几个问题）1.什么是Bootstrap?称为“自助法”，是指用原样本自身的数据抽样得出新的样本及统计量，是一类Monte Carlo方法，实质是对观测信息进行再抽样，进而对总体的分布特性进行统计推断。由于从总体中重复多次抽取样本常常是不方便甚至无法实施的，因此Bootstrap只从总体中抽取一次样本，再在这个样本中进行多次有放回地抽样，得到多个“样本的样本”，通过统计这些小样本的分布，得到总体的统计量。Bootstrap方法充分利用了给定的观测信息，不需要模

2021-07-23 09:31:30 213

momokofly的博客