机器学习
文章平均质量分 90
momokofly
奋志,集中心思致力于某种事业
展开
-
随机森林在sklearn中的实现
随机森林1 概述1.1 集成算法概述集成学习本身不是单独的机器学习算法,而是通过在数据上构建多个模型,集成所有模型的建模结果。集成算法的目标:集成算法会考虑多个评估器的建模结果,汇总之后得到一个综合的结果,以此来获取比单个模型更好的回归或分类表现。多个模型集成成为的模型叫做集成评估器(ensemble estimator),组成集成评估器的每个模型都叫做基评估器(base estimator)。通常来说,有三类集成算法:装袋法(Bagging)、提升法(Boosting)和stacking。B原创 2022-03-15 11:21:44 · 5873 阅读 · 0 评论 -
sklearn入门&决策树在sklearn中的实现
sklearn入门scikit-learn官网:http://scikit-learn.org/stable/index.html中文翻译网址:https://sklearn.apachecn.org/docs/master/2.html算法原理推荐书籍:《数据挖掘导论》、《机器学习》决策树1 概述非参数的有监督学习方法,决策树算法的本质是一种图结构通过对记录的特征的提问,对样本进行分类关于决策树的节点概念:1、根节点:没有进边,有出边,包含最初的,针对特征的提问2、中间节点:既有进边也原创 2022-03-15 11:05:26 · 4155 阅读 · 0 评论 -
sklearn与XGBoost
1 在学习XGBoost之前1.1 xgboost库与XGB的sklearn API陈天奇创造了XGBoost算法后,很快和一群机器学习爱好者建立了专门调用XGBoost库,名为xgboost。xgboost是一个独立的、开源的,并且专门提供梯度提升树以及XGBoost算法应用的算法库。它和sklearn类似,有一个详细的官方网站可以提供学习资料,并且可以与C、Python、R、Julia等语言连用,但需要单独安装和下载。xgboost documents:https://xgboost.readth原创 2022-03-14 14:50:34 · 5919 阅读 · 2 评论 -
sklearn中的朴素贝叶斯
原创 2022-02-04 02:17:25 · 4584 阅读 · 0 评论 -
sklearn中的线性回归大家族
1 概述1.1 线性回归大家族回归是一种应用广泛的预测建模技术,这种技术的核心在于预测的结果是连续型变量。决策树、随机森林、支持向量机的分类器等分类算法的预测标签是分类变量,多以{0,1}来表示,而无监督学习算法(如CPA、Kmeans)并不是求解标签,注意加以区别。回归算法源于统计学理论,他可能是机器学习算法中产生最早的算法之一,其在现实中的应用非常广泛,包括使用其他经济指标预测股票市场指数,根据喷射流的特征预测区域内的降水量,根据公司的广告花费预测总销售额等等,只要一切基于特征预测连续型变量的需求,原创 2022-01-12 17:58:53 · 1063 阅读 · 0 评论 -
sklearn中的支持向量机SVM(下)
1 二分类SVC的进阶1.1 SVC用于二分类的原理复习sklearn中的支持向量机SVM(上)1.2 参数C的理解进阶有一些数据,可能是线性可分的,但在线性可分状况下训练准确率不能达到100%,即无法让训练误差为0。这种数据被称为“存在软间隔的数据”。这时需要决策边界能够忍受一小部分训练误差,而不能单纯地寻求最大边际。因为对于软间隔的数据来说,边际越大被分错的样本也就会越多,因此需要找出一个“最大边际”与“被分错的样本数量”之间的平衡。因此,引入松弛系数ζ\zetaζ和松弛系数的系数CCC作为一原创 2022-01-01 23:44:01 · 2451 阅读 · 0 评论 -
爬虫-kaggle数据集Rain_in_AUS的Location气候分类
澳大利亚气象局和澳大利亚建筑规范委员会(ABCB)将澳大利亚不同地区不同城市的所在的气候区域进行划分,总共划分为八个区域,非常适合用来做分类。能够将Rain in Australia数据集中的地点Location转换成对应的气候,这个信息对于预测是否会下雨比较有用。在google上进行爬虫,爬出每个城市对应的经纬度,并保存在数据city_climate.csv当中。原视频链接:https://www.bilibili.com/video/av39338080/由于谷歌经常上不了,就另外找了个一个网站ht原创 2021-12-30 08:51:25 · 1255 阅读 · 0 评论 -
sklearn中的支持向量机SVM(上)
1 概述支持向量机(SVM,也称为支持向量网络),是机器学习中获得关注最多的算法。它源于统计学习理论,是除了集成学习算法之外,接触到的第一个强学习器。从算法的功能来看,SVM囊括了很多其他算法的功能:从分类效力来讲,SVM在无论线性还是非线性分类中,都是明星般的存在。在实际应用来看,SVM在各种实际问题中都表现非常优秀。它在手写识别数字和人脸识别中应用广泛,在文本和超文本的分类中举足轻重,因为SVM可以大量减少标准归纳(standard inductive)和转换设置(transductive s原创 2021-12-22 15:39:56 · 1777 阅读 · 1 评论 -
sklearn中的聚类算法K-Means
1 概述1.1 无监督学习与聚类算法决策树、随机森林、逻辑回归虽然有着不同的功能,但却都属于“有监督学习”的一部分,即是说,模型在训练的时候,既需要特征矩阵XXX,也需要真实标签yyy。在机器学习中,还有很大一部分算法是属于“无监督学习”,无监督的算法在训练的时候只需要特征矩阵XXX,不需要标签。曾经学过的PCA算法就是无监督学习中的一种。聚类算法也是无监督学习的代表算法之一。聚类算法又叫做“无监督分类”,其目的是将数据划分成有意义或有用的组(或簇)。这种划分可以基于业务需求或建模需求来完成,也可以单原创 2021-12-15 20:29:45 · 11345 阅读 · 0 评论 -
sklearn中的逻辑回归
1 概述1.1 名为“回归”的分类器逻辑回归是一种名为“回归”的线性分类器,它的本质是由线性回归变化而来的,一种广泛使用于分类问题中的广义回归算法。要理解逻辑回归从何而来,得先理解线性回归。线性回归是机器学习中最简单的回归算法,写作一个几乎人人熟悉的方程:z=a0+a1x1+a2x2+...+anxnz=a_0+a_1x_1+a_2x_2+...+a_nx_nz=a0+a1x1+a2x2+...+anxn其中,aaa被统称为模型的参数,其中a0a_0a0被称为截距(intercept原创 2021-12-12 22:23:29 · 2415 阅读 · 0 评论 -
sklearn中的降维算法PCA和SVD
1 概述1.1 什么叫“维度”对于数组和Series来说,维度就是功能shape返回的结果,shape中返回了几个数字,就是几维。索引以外的数据,不分行列的叫一维(此时shape返回唯一的维度上的数据个数),有行列之分叫二维(shape返回行*列),也称为表。一张表最多二维,复数的表构成了更高的维度。但一个数组中存在2张3行4列的表时,shape返回的是(2,3,4)。数组中的每一张表,都可以是一个特征矩阵(矩阵可以是任意正数维,但特征矩阵特指二维)或一个DataFrame,这些结构永远只有一张表,所原创 2021-12-06 09:39:21 · 1903 阅读 · 0 评论 -
sklearn中的数据预处理和特征工程
sklearn的学习笔记原创 2021-12-02 10:32:21 · 2090 阅读 · 1 评论 -
DW李宏毅机器学习Task6
Self-Supervised Learning自监督学习从芝麻街的人物引入自监督学习的相关概念方法。ELMo、BERT、ERNIE、Big BirdBERT是非常复杂的模型,包含340million个参数。模型变得越来越复杂,参数越来越多。自监督学习介绍有监督和自监督学习的区别:有监督学习数据中包含标签,自监督学习数据中不包含标签,是无监督学习的一种。BERT是Transformer Encoder,,最早用在自然语言处理中,也可以用在语音等问题中。Masking:Bert输入文字原创 2021-09-25 23:59:18 · 221 阅读 · 0 评论 -
DW李宏毅机器学习Task5
1、当梯度很小时,优化效果没有达到期望Optimization失败的原因:(1)local minimum;(2)saddle point(鞍点)gradient为0,会导致loss不下降,即卡在了critical point(包括local minimum和saddle point)。 对于local minimum的问题可能无法解决,但是saddle point还是有可能解决。数学推导Taylar Series Approximation,泰勒展开式近似critical point是指,原创 2021-09-23 00:04:01 · 215 阅读 · 0 评论 -
DW李宏毅机器学习Task4
1、Deep Learning 的历史1958:Perceptron(linear model)1969:Perceptron has limitation1980s:Multi-layer perceptron(Do not have significant difference from DNN today)1986:Backpropagation(Usually more than 3 hidden layers is not helpful)1989:1 hidden layer i原创 2021-09-19 22:23:50 · 139 阅读 · 0 评论 -
DW李宏毅机器学习——Task3
1、误差的来源Where does the error come from ?并不是模型越复杂,误差越小error due to ‘bias’ and error due to ‘variance’理论上有一个最佳的函数f^\hat ff^,但我们没办法知道。利用训练数据,我们可以找到f∗f^*f∗,这个f∗f^*f∗只是f^\hat ff^的估计值。Bias and Variance of Estimator:估计随机变量xxx的均值:假设xxx的均值uuu,...原创 2021-09-17 23:49:31 · 141 阅读 · 0 评论 -
DW李宏毅机器学习Task2——Regression
回归的应用:(1)股票市场的预测(2)自动驾驶车(3)推荐系统应用例子:预测进化后的宝可梦CP值Step 1:ModelLinear model:y=b+∑wixiy=b+ \sum{}^{}w_ix_iy=b+∑wixixix_ixi:an attribute of input xxx (feature)wiw_iwi:weightbbb:biasStep 2:Goodness of FunctionSource:https://www.openintro.org原创 2021-09-16 01:05:14 · 171 阅读 · 0 评论 -
DW李宏毅机器学习Task1
通过Task1了解机器学习与AI,机器学习与深度学习的关联,以及机器学习中主要的学习方法。原创 2021-09-13 22:58:53 · 142 阅读 · 0 评论 -
浅谈不平衡数据集的处理方法
因为最近实习需要进行一次技术分享,加上本身研究方向是抽样调查的逆抽样(针对总体中存在数量占比低于10%的稀有单元的情况),所以决定分享一下目前关于不平衡数据集的处理方法~1、不平衡数据集的概述及出现场景样本不平衡问题可以大致分为两种:(1)不同类别中样本数比率不平衡,但这些类别中的样本量都时足够多的;(2)存在某一类或多个类样本量较少(这种情况只能尽量补充该类的样本)当处理分类不平衡数据集时,通常更加关注样本量较少的类别,说明模型正确预测少样本类别的能力比正确预测多样本类别更加重要。例如:在信用原创 2021-08-05 11:00:27 · 2278 阅读 · 0 评论