Oscar※-CSDN博客

原创推荐系统经纬坐标过了高斯核函数最后这个结果意味着什么啊

在poi任务中，为了结合地理距离属性，将两个poi，用高斯核函数进行提取邻居感知影响，最后保存的npz文件如图所示。这个最后一列高斯核的结果在01之间，这个值的物理意义是什么啊，它产生了什么影响啊。...

2022-05-06 23:43:36 247

原创 task07：stacking和幸福感预测

https://blog.csdn.net/qq_45160226/article/details/116766616https://blog.csdn.net/qq_45160226/article/details/117002357

2021-07-28 20:47:02 121

boosting和bagging本质的区别是：boosting通过降低偏差的方法来降低误差（通过改变训练数据集的概率分布(训练数据不同样本的权值)，针对不同概率分布的数据调用弱分类算法学习一系列的弱分类器。）在PAC 学习的框架下，强可学习和弱可学习是等价的，在已知弱学习器的前提下，从弱学习算法出发，反复学习，得到一系列弱分类器(又称为基本分类器)，然后通过一定的形式去组合这些弱分类器构成一个强分类器。Adaboost提高那些被前一轮分类器错误分类的样本的权重，而降低那些被正确分类的样本的权重

2021-07-25 20:18:46 124

原创 Task05：bagging

Bagging的核心在于自助采样(bootstrap)这一概念，即有放回的从数据集中进行采样Bagging是一种降低方差的技术：Var(x)=1/n*（方差），抽样的次数n越大，方差越小测试误差中，方差越小，偏差越大，当方差的减小大于偏差的增大，可以满足测试误差减小。（通过不同的采样增加模型的差异性，所以偏差会增大）随机森林和bagging的区别：随机森林不仅对样本进行采样，还要对特征进行采样。from sklearn import datasetsimport pandas as pdim.

2021-07-22 21:13:06 119

原创 Task04：分类问题

文章目录构建完整的分类项目(1) 收集数据集并选择合适的特征(2) 选择度量模型性能的指标(3) 选择具体的模型并进行训练基于概率的分类模型：决策树支持向量机非线性支持向量机(4) 评估模型的性能并调参构建完整的分类项目(1) 收集数据集并选择合适的特征选取IRIS数据集(2) 选择度量模型性能的指标真阳性TP：预测值和真实值都为正例；真阴性TN：预测值与真实值都为正例；假阳性FP：预测值为正，实际值为负；假阴性FN：预测值为负，实际值为正；分类模型的指标：准确率：分类正确的样本数占总

2021-07-20 20:40:36 158

原创 Task03：偏差与方差理论

测试均方误差

2021-07-18 23:34:05 1085 2

原创 Task02：回归问题

文章目录机器学习基础回归分类无监督学习使用sklearn构建完整的机器学习项目流程回归线性回归模型机器学习基础回归回归：因变量是连续型变量，如：房价，体重等。常用数据集：boston（波士顿房价是一个连续型变量）sklearn中所有内置数据集都封装在datasets对象内：返回的对象有：data:特征X的矩阵(ndarray)target:因变量的向量(ndarray)feature_names:特征名称(ndarray)使用：from sklearn import datase

2021-07-15 16:06:56 473

原创 task01:机器学习的数学基础

多元函数梯度向量雅克比矩阵(Jacobian矩阵)海森矩阵(Hessian 矩阵)函数的极值问题最优性条件基于梯度的优化方法–梯度下降法一个函数 y=f(w,x) ，对于任意 ϵ>0 , 并且当 ϵ 足够小时， f(x+ϵ)≈f(x)+ϵf′(x) 。因此导数在求损失函数的最小值时，非常有用。当 ϵ 足够小时， f(x−ϵf′(x))≈f(x)−ϵ(f′(x))2<f(x) 。故梯度下降可以表示为 x=x−ϵf′(x)。当 x 达到最值点时，由于 f′(x)=0 ，因此梯度不会

2021-07-14 01:43:25 105

原创动手学数据分析Task05：模型的建立与评估

文章目录导入数据特征工程缺失值填充编码分类变量模型搭建切割训练集和测试集模型创建输出模型预测结果模型评估导入数据import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPython.display import Image%matplotlib inline使用matplotliblib画图的时候经常会遇见中文或者是负号无法显示的情况，我们会添加下面前两句

2021-06-23 17:31:21 270

原创 Task04：数据可视化

text = pd.read_csv(r'result.csv')text.head()#可视化展示泰坦尼克号数据集中男女中生存人数分布情况（用柱状图试试）。sex=text.group.by('Sex')['Survived'].sum()sex.plot.bar()plt.title('survived_count')plt.show()sex = text.groupby('Sex')['Survived'].count()sex.plot.bar()plt.title('sur

2021-06-21 19:40:56 116

原创动手学数据分析Task03

数据重构数据的合并train-left-up.csv为左三列的正向排序train-right-up.csv为右八列的正向排序#使用concat方法：将数据train-left-up.csv和train-right-up.csv横向合并为一张表，并保存这张表为result_uplist_up = [text_left_up,text_right_up]result_up = pd.concat(list_up,axis=1)result_up.head()#使用concat方法：将train

2021-06-19 18:25:17 269

原创动手学数据分析Task02

数据清洗及特征处理数据经常会有缺失值，有一些异常点等，需要经过一定的处理才能继续做后面的分析或建模，所以拿到数据的第一步是进行数据清洗，本任务我们将学习缺失值、重复值、字符串和数据转换等操作，将数据清洗成可以分析或建模的样子。2.1观察数据与处理2.1.1缺失值观察#法一df.info()#方法二df.isnull().sum()可以看到Age、cabin、Embarked均有缺失值2.1.2 任务二：对缺失值进行处理#将NAN设置为0的三种方法df[df['Age']==No

2021-06-17 18:57:28 167

原创动手学数据分析Task01

数据载入与初步观察载入数据集#导入库import numpy as npimport pandas as pd#载入数据#使用相对路径df = pd.read_csv('train.csv')df.head(3)#显示前三行#使用绝对路径df = pd.read_csv('C:/Users/LZN/Desktop/hands-on-data-analysis-master/第一单元项目集合/train.csv')df.head(3)读取csv文件：pd.read_csv(),写

2021-06-15 22:14:33 191 1

原创 task09：集成学习案例——蒸汽量预测

准备工作背景介绍火力发电的基本原理是：燃料在燃烧时加热水生成蒸汽，蒸汽压力推动汽轮机旋转，然后汽轮机带动发电机旋转，产生电能。在这一系列的能量转化中，影响发电效率的核心是锅炉的燃烧效率，即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多，包括锅炉的可调参数，如燃烧给量，一二次风，引风，返料风，给水水量；以及锅炉的工况，比如锅炉床温、床压，炉膛温度、压力，过热器的温度等。我们如何使用以上的信息，根据锅炉的工况，预测产生的蒸汽量，来为我国的工业届的产量预测贡献自己的一份力量呢？所以，该案例是使

2021-05-23 18:48:32 359

原创 task08：集成学习案例1——幸福感预测

文章目录背景数据信息评价指标导入package导入数据集查看数据的基本信息数据预处理数据增广特征建模模型融合结果保存背景我们需要使用包括个体变量（性别、年龄、地域、职业、健康、婚姻与政治面貌等等）、家庭变量（父母、配偶、子女、家庭资本等等）、社会态度（公平、信用、公共服务等等）等139维度的信息来预测其对幸福感的影响。我们的数据来源于国家官方的《中国综合社会调查（CGSS）》文件中的调查结果中的数据，数据来源可靠可依赖:)数据信息赛题要求使用以上 139 维的特征，使用 8000 余组数据进行对于

2021-05-19 00:37:47 406

原创集成学习07：stacking

理论在Blending中，我们产生验证集的方式是使用分割的方式，产生一组训练集和一组验证集。Blending在集成的过程中只会用到验证集的数据，对数据实际上是一个很大的浪费。所以stacking中用了交叉验证的方式。（1.比stacking简单，因为不用进行k次的交叉验证来获得stacker feature 2.避开了一个信息泄露问题：generlizers和stacker使用了不一样的数据集 3.在团队建模过程中，不需要给队友分享自己的随机种子）blending：stacking：Stackin

2021-05-13 23:23:45 1403

原创集成学习06：Blending

理论Blending是一种模型融合方法对于一般的blending(1) 将数据划分为训练集和测试集(test_set)，其中训练集需要再次划分为训练集(train_set)和验证集(val_set)；(2) 创建第一层的多个模型，这些模型可以使同质的也可以是异质的；(3) 使用train_set训练步骤2中的多个模型，然后用训练好的模型预测val_set和test_set得到val_predict, test_predict1；(4) 创建第二层的模型,使用val_predict作为训练集训练第

2021-05-11 23:26:18 382 1

原创集成学习05：XGBoost算法

XGBoost本质上还是一个GBDT，但是力争把速度和效率发挥到极致。。XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。它在Gradient Boosting框架下实现机器学习算法。 XGBoost提供了并行树提升（也称为GBDT，GBM），可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境（Hadoop，SGE，MPI）上运行，并且可以解决超过数十亿个样例的问题。XGBoost利用了核外计算并且能够使数据科学家在一个主机上处理数亿的样本数据。最终，将这些技术进行结合

2021-04-26 23:00:51 437

原创集成学习04：前向分步算法和梯度提升决策树

AdaBoost算法是模型为加法模型、损失函数为指数函数、学习算法为前向分步算法时的二类分类学习算法前向分步算法加法模型：加法模型是一种线性模型其中，????(????;????????)为基函数，????????为基函数的参数，????????为基函数的系数（权重）在给定训练数据及损失函数????(????,????(????))的条件下，学习加法模型????(????) 成为经验风险极小化（即损失函数极小化）问题：即同时考虑N个样本在整个线性模型组中的损失函数的极小值，通常这是一个十分复杂的

2021-04-23 22:07:53 458

原创集成学习03：Boosting

看了一下周志华老师讲的boosting25年报告（B站），讲的真的很棒，但是有写还是有点不能理解彻底，在这里推荐一下，没事可以多看看。对于Adaboost来说，解决上述的两个问题的方式是：提高那些被前一轮分类器错误分类的样本的权重，而降低那些被正确分类的样本的权重。这样一来，那些在上一轮分类器中没有得到正确分类的样本，由于其权重的增大而在后一轮的训练中“备受关注”。各个弱分类器的组合是通过采取加权多数表决的方式，具体来说，加大分类错误率低的弱分类器的权重，因为这些分类器能更好地完成分类任务，而减小分

2021-04-20 15:58:42 315

qq_45160226的博客

原创西瓜书 task1

原创推荐系统经纬坐标过了高斯核函数最后这个结果意味着什么啊

原创数一数二专题

原创无穷级数部分

原创微分方程

原创二重积分

原创多元函数微分学

原创一元函数积分学

原创一元函数微分学

原创极限与连续

原创 Task08:集成学习

原创 task07：stacking和幸福感预测

原创 Task06:boosting

原创 Task05：bagging

原创 Task04：分类问题

原创 Task03：偏差与方差理论

原创 Task02：回归问题

原创 task01:机器学习的数学基础

原创动手学数据分析Task05：模型的建立与评估

原创 Task04：数据可视化

原创动手学数据分析Task03

原创动手学数据分析Task02

原创动手学数据分析Task01

原创 task09：集成学习案例——蒸汽量预测

原创 task08：集成学习案例1——幸福感预测

原创集成学习07：stacking

原创集成学习06：Blending

原创集成学习05：XGBoost算法

原创集成学习04：前向分步算法和梯度提升决策树

原创集成学习03：Boosting

原创集成学习02：bagging与随机森林

原创集成学习01：投票法的原理和案例分析

原创零基础入门数据挖掘-心跳信号分类预测（三）

原创零基础入门数据挖掘-心跳信号分类预测（二）

原创零基础入门数据挖掘-心跳信号分类预测（一）

空空如也

PTA 出现 warning: ignoring return value of ‘scanf’, declared with attribute warn_unused_result [-Wunused-result]怎么解决