![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
比赛
文章平均质量分 72
有害诗篇
改变未来的不是AI,而是爱
展开
-
常见特征工程操作
过滤式(filter)先对数据进行特征选择,然后在训练学习器,常见的方法有Relief/方差选择发/相关系数法/卡方检验法/互信息法;嵌入式(embedding)结合过滤式和包裹式,学习器训练过程中自动进行了特征选择,常见的有lasso回归;插值补全,包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等;时间特征,包括相对时间和绝对时间,节假日,双休日等;非线性变换,包括log/平方/根号等;2.BOX-COX转换(处理有偏分布);地理信息,包括分箱,分布编码等方法;...原创 2022-07-27 10:34:25 · 374 阅读 · 0 评论 -
sklearn模型整理
sklearn 模型总结原创 2022-07-04 16:03:47 · 1103 阅读 · 0 评论 -
Kaggle泰坦尼克号幸存者预测
解析一名金牌选手方案泰坦尼克号——来自灾难的机器学习1.数据有两个数据集,分别是训练集train.csv和测试集test.csv。train.csv包含乘客子集的详细信息(准确地说是 891 人),揭示了他们是否幸存,也称为“基本事实”。test.csv 数据集包含类似的信息,但没有透露每位乘客是否幸存,预测这些结果是你的工作,即:使用你在 train.csv 数据中找到的模式,预测船上的其他 418 名乘客(在 test.csv中找到)是否幸存。下面了解一下train.csv数据集中的变量:原创 2022-06-07 10:36:11 · 3571 阅读 · 0 评论 -
kaggle树叶分类
kaggle比赛地址:leaf-classification数据集形式:train_csv:对于每一张图片都有192个特征。test.csv没有species这一列,该比赛的目标就是预测这一列,判断属于哪一类。训练集共有990张,测试集共有594张,共99类图片如下所示:机器学习方法:#对数据进行标签编码le = LabelEncoder().fit(train.species)labels = le.transform(train.species)labels将数据标签进行编原创 2022-05-09 16:19:22 · 952 阅读 · 0 评论 -
paddlepaddle 口罩识别
padddlepaddle口罩识别,查看数据集导入需要的包import osimport zipfileimport randomimport jsonimport paddleimport sysimport numpy as npfrom PIL import Imagefrom PIL import ImageEnhanceimport paddle.fluid as fluidfrom multiprocessing import cpu_countimport matpl原创 2022-05-01 10:46:40 · 425 阅读 · 0 评论 -
机器学习模型融合
集成学习基础基础学习是指结合两个或者多个模型的机器学习模型。集成学习是机器学习的分支,通常在追求更强预测能力时使用。集成学习经常被机器学习竞赛中的顶级和获胜参与者使用。现代机器学习库(Sklearn,XGBoost)内部已经结合了常见的集成学习方法。集成学习介绍集成学习结合多个不同的模型,然后结合单个模型完成预测。通常情况下,集成学习能比单个模型找到更好性能。常见的集成学习技术有三类:Bagging, 如Bagged Decision Trees and Random Forest.Boos原创 2022-04-24 11:00:57 · 2045 阅读 · 0 评论 -
kaggle猫狗分类
本文介绍使用CNN卷积神经网络完成猫狗图像识别,数据集来源于kaggle:[猫狗分类数据集]。主要包括以下三部分:数据创建与预处理神经网络模型搭建数据增强实现减小正则化数据处理数据集包含25000张图片,猫和狗各有12500张;创建每个类别1000个样本的训练集、500个样本的验证集和500个样本的测试集(只使用部分数据进行建模)import osimport shutilcurrent_dir = %pwdcurrent_dir #当前目录base_dir = current_原创 2022-04-23 22:09:57 · 3965 阅读 · 2 评论