- 博客(9)
- 收藏
- 关注
原创 NLP - 新闻文本分类Task01_赛题理解
赛题理解学习目标赛题数据学习目标理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理。整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐的文本数据。赛题数据由以下几个部分构成:训练集20w条样本,测试集A包括5w条样本,测试集B包括5w条样本。为了预防选手人工标注测试集的情况,我们将比赛数据的文本按照字符级别进行了
2020-07-21 23:05:40 133
转载 OpenCV框架图像插值算法
OpenCV框架图像插值算法1.1 简介1.2 学习目标1.3 内容介绍1.4 算法理论介绍与推荐1.4.1 最近邻插值算法原理1.4.2 双线性插值1.1 简介在图像处理中,平移变换、旋转变换以及放缩变换是一些基础且常用的操作。这些几何变换并不改变图象的象素值,只是在图象平面上进行象素的重新排列。在一幅输入图象[u,v][u,v][u,v]中,灰度值仅在整数位置上有定义。然而,输出图象[x,...
2020-04-21 22:46:30 145
转载 model fuse
模型融合含义:VotingAveragingRankingBaggingBoostingStackingBlending含义:模型融合通常可以在各种不同的机器学习任务中使结果获得提升,单个模型效果总会不尽如人意,但是通过模型融合能结合各个模型的有点,从而提高模型的效果。VotingVoting即投票机制,分为软投票和硬投票两种,其原理采用少数服从多数的思想。硬投票:对多个模型直接进行投票...
2020-01-19 23:40:26 1235
转载 模型选择
模型选择过程模型选择以lightGBM为例模型选择如果你不熟悉各个算法模型的适用数据,那么就去尝试吧!然后选取效果最好的模型,当然这个是基于你已经做好一套特征工程之后,比赛中常用的模型有GBDT,XGBoost,lightGBM,CatBoost等等以lightGBM为例from __future__ import print_functionimport lightgbm as lgb...
2020-01-15 23:05:09 146
转载 FeatureEngineering特征工程
3_FeatureEngineering特征工程导入相关的包读取数据集特征衍生特征清洗计算统计特征groupby方法生成统计特征聚类方法统计量级大的值取做平滑处理对比特征工程前后线性模型结果情况相关系数法进行特征选择Wrapper进行梯度删除特征Embedded基于惩罚项的特征选择法基于树模型的特征选择法随机森林 平均不纯度减少(mean decrease impurity)导入相关的包imp...
2020-01-12 22:33:30 190
转载 DataWale竞赛学习-2_DataCleaning
DataCleaning步骤导入相关的包导入数据集缺失值、异常值、object类型分析及处理删除冗余或对目标函数无贡献的特征使用IsolationForest检测并删除异常点手动删除异常值画面积和租金的箱线图深度清洗导入相关的包#载入数据import warningswarnings.filterwarnings("ignore")import numpy as npimport pa...
2020-01-09 23:12:15 148
转载 DataWale竞赛学习-房产租金预测
城市-房产租金预测赛题说明规则概述模型评分标准线上赛数据发放与结果提交比赛要求复赛晋级与综合评审数据集字段说明赛题分析认识数据对比赛数据做EDA赛题说明你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。规则概述1.线上比赛要求参赛选手根据给定的数据集,建立模型,预测房...
2020-01-07 00:25:54 276
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人