自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(35)
  • 问答 (1)
  • 收藏
  • 关注

原创 西瓜书 task1

2022-05-17 21:20:08 202 1

原创 推荐系统经纬坐标过了高斯核函数最后这个结果意味着什么啊

在poi任务中,为了结合地理距离属性,将两个poi,用高斯核函数进行提取邻居感知影响,最后保存的npz文件如图所示。这个最后一列高斯核的结果在01之间,这个值的物理意义是什么啊,它产生了什么影响啊。...

2022-05-06 23:43:36 197

原创 数一数二专题

2021-09-27 23:16:33 146

原创 无穷级数部分

2021-09-26 12:23:23 132

原创 微分方程

2021-09-22 23:23:06 70

原创 二重积分

2021-09-19 21:51:25 89

原创 多元函数微分学

2021-09-16 01:46:39 89

原创 一元函数积分学

2021-09-08 21:58:04 80

原创 一元函数微分学

2021-08-25 23:35:26 77

原创 极限与连续

函数极限与连续数列极限

2021-08-18 22:37:00 83

原创 Task08:集成学习

2021-07-31 22:50:22 126

原创 task07:stacking和幸福感预测

https://blog.csdn.net/qq_45160226/article/details/116766616https://blog.csdn.net/qq_45160226/article/details/117002357

2021-07-28 20:47:02 87

原创 Task06:boosting

boosting和bagging本质的区别是:boosting通过降低偏差的方法来降低误差(通过改变训练数据集的概率分布(训练数据不同样本的权值),针对不同概率分布的数据调用弱分类算法学习一系列的弱分类器。)在PAC 学习的框架下,强可学习和弱可学习是等价的,在已知弱学习器的前提下,从弱学习算法出发,反复学习,得到一系列弱分类器(又称为基本分类器),然后通过一定的形式去组合这些弱分类器构成一个强分类器。Adaboost提高那些被前一轮分类器错误分类的样本的权重,而降低那些被正确分类的样本的权重

2021-07-25 20:18:46 95

原创 Task05:bagging

Bagging的核心在于自助采样(bootstrap)这一概念,即有放回的从数据集中进行采样Bagging是一种降低方差的技术:Var(x)=1/n*(方差),抽样的次数n越大,方差越小测试误差中,方差越小,偏差越大,当方差的减小大于偏差的增大,可以满足测试误差减小。(通过不同的采样增加模型的差异性,所以偏差会增大)随机森林和bagging的区别:随机森林不仅对样本进行采样,还要对特征进行采样。from sklearn import datasetsimport pandas as pdim.

2021-07-22 21:13:06 94

原创 Task04:分类问题

文章目录构建完整的分类项目(1) 收集数据集并选择合适的特征(2) 选择度量模型性能的指标(3) 选择具体的模型并进行训练基于概率的分类模型:决策树支持向量机非线性支持向量机(4) 评估模型的性能并调参构建完整的分类项目(1) 收集数据集并选择合适的特征选取IRIS数据集(2) 选择度量模型性能的指标真阳性TP:预测值和真实值都为正例;真阴性TN:预测值与真实值都为正例;假阳性FP:预测值为正,实际值为负;假阴性FN:预测值为负,实际值为正;分类模型的指标:准确率:分类正确的样本数占总

2021-07-20 20:40:36 111

原创 Task03:偏差与方差理论

测试均方误差

2021-07-18 23:34:05 890 2

原创 Task02:回归问题

文章目录机器学习基础回归分类无监督学习使用sklearn构建完整的机器学习项目流程回归线性回归模型机器学习基础回归回归:因变量是连续型变量,如:房价,体重等。常用数据集:boston(波士顿房价是一个连续型变量)sklearn中所有内置数据集都封装在datasets对象内: 返回的对象有:data:特征X的矩阵(ndarray)target:因变量的向量(ndarray)feature_names:特征名称(ndarray)使用:from sklearn import datase

2021-07-15 16:06:56 411

原创 task01:机器学习的数学基础

多元函数梯度向量雅克比矩阵(Jacobian矩阵)海森矩阵(Hessian 矩阵)函数的极值问题最优性条件基于梯度的优化方法–梯度下降法一个函数 y=f(w,x) ,对于任意 ϵ>0 , 并且当 ϵ 足够小时, f(x+ϵ)≈f(x)+ϵf′(x) 。 因此导数在求损失函数的最小值时,非常有用。当 ϵ 足够小时, f(x−ϵf′(x))≈f(x)−ϵ(f′(x))2<f(x) 。故梯度下降可以表示为 x=x−ϵf′(x)。当 x 达到最值点时,由于 f′(x)=0 ,因此梯度不会

2021-07-14 01:43:25 86

原创 动手学数据分析Task05:模型的建立与评估

文章目录导入数据特征工程缺失值填充编码分类变量模型搭建切割训练集和测试集模型创建输出模型预测结果模型评估导入数据import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPython.display import Image%matplotlib inline使用matplotliblib画图的时候经常会遇见中文或者是负号无法显示的情况,我们会添加下面前两句

2021-06-23 17:31:21 239

原创 Task04:数据可视化

text = pd.read_csv(r'result.csv')text.head()#可视化展示泰坦尼克号数据集中男女中生存人数分布情况(用柱状图试试)。sex=text.group.by('Sex')['Survived'].sum()sex.plot.bar()plt.title('survived_count')plt.show()sex = text.groupby('Sex')['Survived'].count()sex.plot.bar()plt.title('sur

2021-06-21 19:40:56 96

原创 动手学数据分析Task03

数据重构数据的合并train-left-up.csv为左三列的正向排序train-right-up.csv为右八列的正向排序#使用concat方法:将数据train-left-up.csv和train-right-up.csv横向合并为一张表,并保存这张表为result_uplist_up = [text_left_up,text_right_up]result_up = pd.concat(list_up,axis=1)result_up.head()#使用concat方法:将train

2021-06-19 18:25:17 215

原创 动手学数据分析Task02

数据清洗及特征处理数据经常会有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗,本任务我们将学习缺失值、重复值、字符串和数据转换等操作,将数据清洗成可以分析或建模的样子。2.1观察数据与处理2.1.1缺失值观察#法一df.info()#方法二df.isnull().sum()可以看到Age、cabin、Embarked均有缺失值2.1.2 任务二:对缺失值进行处理#将NAN设置为0的三种方法df[df['Age']==No

2021-06-17 18:57:28 135

原创 动手学数据分析Task01

数据载入与初步观察载入数据集#导入库import numpy as npimport pandas as pd#载入数据#使用相对路径df = pd.read_csv('train.csv')df.head(3)#显示前三行#使用绝对路径df = pd.read_csv('C:/Users/LZN/Desktop/hands-on-data-analysis-master/第一单元项目集合/train.csv')df.head(3)读取csv文件:pd.read_csv(),写

2021-06-15 22:14:33 108 1

原创 task09:集成学习案例——蒸汽量预测

准备工作背景介绍火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。我们如何使用以上的信息,根据锅炉的工况,预测产生的蒸汽量,来为我国的工业届的产量预测贡献自己的一份力量呢?所以,该案例是使

2021-05-23 18:48:32 299

原创 task08:集成学习案例1——幸福感预测

文章目录背景数据信息评价指标导入package导入数据集查看数据的基本信息数据预处理数据增广特征建模模型融合结果保存背景我们需要使用包括个体变量(性别、年龄、地域、职业、健康、婚姻与政治面貌等等)、家庭变量(父母、配偶、子女、家庭资本等等)、社会态度(公平、信用、公共服务等等)等139维度的信息来预测其对幸福感的影响。我们的数据来源于国家官方的《中国综合社会调查(CGSS)》文件中的调查结果中的数据,数据来源可靠可依赖:)数据信息赛题要求使用以上 139 维的特征,使用 8000 余组数据进行对于

2021-05-19 00:37:47 362

原创 集成学习07:stacking

理论在Blending中,我们产生验证集的方式是使用分割的方式,产生一组训练集和一组验证集。Blending在集成的过程中只会用到验证集的数据,对数据实际上是一个很大的浪费。所以stacking中用了交叉验证的方式。(1.比stacking简单,因为不用进行k次的交叉验证来获得stacker feature 2.避开了一个信息泄露问题:generlizers和stacker使用了不一样的数据集 3.在团队建模过程中,不需要给队友分享自己的随机种子)blending:stacking:Stackin

2021-05-13 23:23:45 1262

原创 集成学习06:Blending

理论Blending是一种模型融合方法对于一般的blending(1) 将数据划分为训练集和测试集(test_set),其中训练集需要再次划分为训练集(train_set)和验证集(val_set);(2) 创建第一层的多个模型,这些模型可以使同质的也可以是异质的;(3) 使用train_set训练步骤2中的多个模型,然后用训练好的模型预测val_set和test_set得到val_predict, test_predict1;(4) 创建第二层的模型,使用val_predict作为训练集训练第

2021-05-11 23:26:18 337 1

原创 集成学习05:XGBoost算法

XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致。。XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。 它在Gradient Boosting框架下实现机器学习算法。 XGBoost提供了并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。 相同的代码在主要的分布式环境(Hadoop,SGE,MPI)上运行,并且可以解决超过数十亿个样例的问题。XGBoost利用了核外计算并且能够使数据科学家在一个主机上处理数亿的样本数据。最终,将这些技术进行结合

2021-04-26 23:00:51 376

原创 集成学习04:前向分步算法和梯度提升决策树

AdaBoost算法是模型为加法模型、损失函数为指数函数、学习算法为前向分步算法时的二类分类学习算法前向分步算法加法模型:加法模型是一种线性模型其中,????(????;????????)为基函数,????????为基函数的参数,????????为基函数的系数(权重)在给定训练数据及损失函数????(????,????(????))的条件下,学习加法模型????(????) 成为经验风险极小化(即损失函数极小化)问题:即同时考虑N个样本在整个线性模型组中的损失函数的极小值,通常这是一个十分复杂的

2021-04-23 22:07:53 401

原创 集成学习03:Boosting

看了一下周志华老师讲的boosting25年报告(B站),讲的真的很棒,但是有写还是有点不能理解彻底,在这里推荐一下,没事可以多看看。对于Adaboost来说,解决上述的两个问题的方式是:提高那些被前一轮分类器错误分类的样本的权重,而降低那些被正确分类的样本的权重。这样一来,那些在上一轮分类器中没有得到正确分类的样本,由于其权重的增大而在后一轮的训练中“备受关注”。各个弱分类器的组合是通过采取加权多数表决的方式,具体来说,加大分类错误率低的弱分类器的权重,因为这些分类器能更好地完成分类任务,而减小分

2021-04-20 15:58:42 193

原创 集成学习02:bagging与随机森林

一、原理分析先看的西瓜书bagging与随机森林部分,形成了一个大概的思维导图。Notes:节点划分过程中所用的指标主要是信息增益和GINI系数。信息增益:衡量的是划分前后信息不确定性程度的减小。信息不确定程度一般使用信息熵来度量。信息增益IG越大,说明使用该特征划分数据所获得的信息量变化越大,子节点的样本“纯度”越高。Gini指数:衡量数据的不纯度,一般来说,选择使得划分后Gini指数最小的特征。二、案例分析创建一个含有1000个样本20维特征的随机分类数据集# test classif

2021-04-17 16:51:51 109

原创 集成学习01:投票法的原理和案例分析

一、原理分析首先按照西瓜书以及学习资料对集成学习以及投票法有了一个大概的了解。投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高模型的鲁棒性。在理想情况下,投票法的预测效果应当优于任何一个基模型的预测效果。投票法属于数据挖掘模型融合的部分,之前看了心跳信号的分类预测,但是基础并不好,后面希望能在每一个步骤部分进一步学习。投票法如何用于分类或回归?如果是分类,投票法把超过半数以上的投票结果作为要预测的分类,投票法处理回归问题,是将各个基分类器的回归结果简单求平均。

2021-04-14 22:26:29 570 1

原创 零基础入门数据挖掘-心跳信号分类预测(三)

文章目录Task05 模型融合5.5.1 准备工作5.5.2 加权融合5.5.3 Stacking融合Task05 模型融合5.5.1 准备工作准备工作进行内容有:导入数据集并进行简单的预处理将数据集划分成训练集和验证集构建单模:Random Forest,LGB,NN读取并演示如何利用融合模型生成可提交预测数据引入一个降内存的函数。def reduce_mem_usage(df): start_mem = df.memory_usage().sum() / 1024**2

2021-03-28 22:45:06 662 3

原创 零基础入门数据挖掘-心跳信号分类预测(二)

Task04 模型调参在此对baseline的整个流程建模有更详细的了解4.5 代码示例4.5.1 导入相关关和相关设置import osimport gcimport mathimport pandas as pdimport numpy as npimport lightgbm as lgbimport xgboost as xgbfrom catboost import CatBoostRegressorfrom sklearn.linear_model import SG

2021-03-25 16:04:38 524 2

原创 零基础入门数据挖掘-心跳信号分类预测(一)

零基础入门数据挖掘-心跳信号分类预测baseline的运行还是比较简单顺利的baseline主要用了lightGBM算法下面是对参数的部分理解

2021-03-16 17:32:38 1239 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除