数据竞赛学习
文章平均质量分 88
初来乍到小penguin
这个作者很懒,什么都没留下…
展开
-
datawhale组队学习心电图分类 task03
task03 特征工程 3.1 学习目标 学习时间序列数据的特征预处理方法 学习时间序列特征处理工具 Tsfresh(TimeSeries Fresh)的使用 3.2 内容介绍 数据预处理 时间序列数据格式处理 加入时间步特征time 特征工程 时间序列特征构造 特征筛选 使用 tsfresh 进行时间序列特征处理 3.3 代码示例 3.3.1 导入包并读取数据 # 包导入 import pandas as pd import numpy as np import tsfresh as tsf from t原创 2021-03-22 06:20:14 · 187 阅读 · 0 评论 -
全球人工智能技术创新大赛【热身赛一】Task01
全球人工智能技术创新大赛【热身赛一】Task01运行过程中一些问题:构建docker中的一些问题:run.shDockerfile常见docker命令汇总:提交成功参考资料 运行过程中一些问题: 报错: AttributeError: Can’t get attribute ‘SiLU’ on <module ‘torch.nn.modules.activation’ 解决:升级pytorch到1.7 报错:ValueError: Cannot load file containing pickled原创 2021-02-22 02:48:58 · 451 阅读 · 0 评论 -
datawhale学习-数据可视化(3)
datawhale学习-数据可视化(3)一、子图1. 使用 plt.subplots 绘制均匀状态下的子图二、子图上的方法作业作业1. 墨尔本1981年至1990年的每月温度情况作业2:画出数据的散点图和边际分布 一、子图 1. 使用 plt.subplots 绘制均匀状态下的子图 返回元素分别是画布和子图构成的列表,第一个数字为行,第二个为列 figsize 参数可以指定整个画布的大小 sharex 和 sharey 分别表示是否共享横轴和纵轴刻度 tight_layout 函数可以调整子图的相对大小使字原创 2020-12-20 20:54:30 · 304 阅读 · 2 评论 -
datawhale组队学习——CV篇(3)
datawhale组队学习——CV篇(3)前言3.5 损失函数3.5.1 Matching strategy (匹配策略):3.5.2 损失函数3.5.3 Hard negative mining:3.5.4 小结 前言 3.5 损失函数 3.5.1 Matching strategy (匹配策略): 我们分配了许多prior bboxes,我们要想让其预测类别和目标框信息,我们先要知道每个prior bbox和哪个目标对应,从而才能判断预测的是否准确,从而将训练进行下去。 不同方法 ground tr原创 2020-12-20 08:05:24 · 141 阅读 · 2 评论 -
datawhale组队学习——CV篇(1)
3.3 锚框 or 先验框 3.3.1 关于先验框 在众多经典的目标检测模型中,均有先验框的说法,有的paper(如Faster RCNN)中称之为anchor(锚点),有的paper(如SSD)称之为prior bounding box(先验框),实际上是一个概念。 那么,为什么要有先验框这个概念呢?按理说我们的图片输入模型,模型给出检测结果就好了,为什么还要有先验框?那么关于它的作用,我们不妨回顾一下前面在2.1节所说的那个目标检测最初的解决方案,我们说,我们要遍历图片上每一个可能的目标框,再对这些框进原创 2020-12-19 11:07:48 · 246 阅读 · 0 评论 -
20201203
推荐系统新闻推荐——特征工程制作特征和标签, 转成监督学习问题导包df节省内存函数数据读取训练和验证集的划分获取历史点击和最后一次点击读取训练、验证及测试集读取召回列表读取各种EmbeddingWord2Vec训练及gensim的使用读取文章信息读取数据对训练数据做负采样将召回数据转换成字典特征工程制作与用户历史行为相关特征用户和文章特征用户相关特征分析一下点击时间和点击文章的次数,区分用户活跃度分析一下点击时间和被点击文章的次数, 衡量文章热度特征用户的系列习惯用户的设备习惯用户的时间习惯用户的主题爱好用原创 2020-12-03 06:58:37 · 166 阅读 · 0 评论 -
2020-11-27
系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 推荐系统入门实战-新闻推荐系列文章目录数据分析建议一、pandas是什么?导入包读取数据数据预处理计算用户点击rank和点击次数数据浏览¶总结 数据分析 数据分析的价值主要在于熟悉了解整个数据集的基本情况包括每个文件里有哪些数据,具体的文件中的每个字段表示什么实际含义,以及数据集中特征之间的相关性原创 2020-11-27 23:31:47 · 90 阅读 · 0 评论 -
Task04 建模调参代码实现
datawhale金融风控代码实现读取数据简单建模模型调参1. 贪心调参2. 网格搜索3. 贝叶斯调参模型调参小总结 代码实现 import pandas as pd import numpy as np import warnings import os import seaborn as sns import matplotlib.pyplot as plt """ sns 相关设置 @return: """ # 声明使用 Seaborn 样式 sns.set() # 有五种seaborn的绘图风格,它转载 2020-09-24 23:38:26 · 126 阅读 · 0 评论 -
datawhale金融风控挑战赛:赛题理解
datawhale金融风控挑战赛:赛题理解一、比赛数据1.1数据特征理解1.2 Pandas数据读取二、常见分类指标2.1 混淆矩阵2.2 准确率(Accuracy)2.3 精确率(Precision)2.4 召回率(Recall)2.5 F1 Score2.6 P-R曲线(Precision-Recall Curve)2.7 ROC(Receiver Operating Characteristic)2.8 AUC(Area Under Curve)三、金融风控预测类常见评估指标3.1 KS(Kolmog原创 2020-09-15 21:36:08 · 1074 阅读 · 0 评论