![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 59
地大停车第二帅
啥也不会
展开
-
机器学习贝叶斯算法
基本前提:输入空间X,输出空间Y。训练集T={(x,y)}中的样本由P(X,Y)独立同分布产生。这里很多人在学概率论的时候可能不知道什么叫 独立同分布。这里独立的意思是每次抽样互不影响。好比掷骰子,每次掷骰子互不影响。同分布是指每次抽样的样本服从同一个概率分布。朴素贝叶斯做出了一个比较强的假设,即公式:特征向量X为N维时,p(X=x|Y=y)=P(X(第一个位置)=x1|y)P(X(第二个位置)=x2|y)…*P(X(第N个位置)=xn|y)原创 2022-10-08 21:02:50 · 407 阅读 · 1 评论 -
阿里云天池大赛工业蒸汽预测学习(3)
最近开始了本赛题特征工程部分的学习**概念:**特征工程就是从原始数据提取特征的过程,这些特征可以很好的描述数据,并且利用特征建立的模型在位置数据上的性能表现可以达到最优流程1.去掉无用特征2.去除冗余特诊,利用存在的特征,转换特征,内容中的特征以及其他数据源生成新特征3.对特征进行处理赛题部分:异常值分析 plt.figure(figsize=(18,10)) plt.boxplot(x=train_data.values,labels=train_data.columns) plt.原创 2022-03-18 15:28:26 · 1606 阅读 · 0 评论 -
阿里云天池大赛工业蒸汽预测代码学习(2)
#查看异常值的代码def find_outliers(model,X,y,sigma=3): #predict y try: y_pred=pd.Series(model.predict(X),index=y.index) except: model.fit(X,y) y_pred=pd.Series(model.predict(X),index=y.index)#用模型预测 resid=y-y_pred#计算残差原创 2022-03-09 17:28:11 · 1746 阅读 · 0 评论 -
案例天池云大赛工业蒸汽预测代码学习
#获取异常数据的代码import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy import statsfrom pandas import Series,DataFrameimport warningsfrom sklearn.linear_model import Ridgefrom sklearn.metrics import mean_squ原创 2022-03-08 17:16:31 · 1029 阅读 · 2 评论 -
提升树算法实例
按照如图拟合一颗回归树。一直觉得书上的话语说的不够通俗,可能会让很多刚入门的同学看不懂(我自己是这样),现在看明白了记录一下。首先初始化fx0:选择决策的最优切分点s,由优化问题给出。s的取值区间为为[1.5,9.5]这里对于每一个s的取值,求出对应的m(s),在选取使平方误差最小的s作为切分点,计算c1和c2得到了f0x。用此时得到的模型求残差得到残差表。接下来书中说的是用残差拟合回归树,一开始看不明白这句是什么意思。其实就是把残差当作第一个图中的y,再重复进行上述步骤,得到新的c1.原创 2022-03-01 15:31:27 · 112 阅读 · 0 评论