自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

转载 task02 :attention及Transformer

attentionseq2seq一个序列到序列(seq2seq)模型,接收的输入是一个(单词、字母、图像特征)序列,输出是另外一个序列.seq2seq模型是由编码器(Encoder)和解码器(Decoder)组成的。其中,编码器会处理输入序列中的每个元素,把这些信息转换为一个向量(称为上下文(context))。当我们处理完整个输入序列后,编码器把上下文(context)发送给解码器,解码器开始逐项生成输出序列中的元素。attetion注意力模型的整个过程:注意力模型的解码器

2021-08-18 19:49:16 109

转载 智慧海洋task2

数据分析的目的:EDA的主要价值在于熟悉整个数据集的基本情况(缺失值、异常值),来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。了解特征之间的相关性、分布,以及特征与预测值之间的关系。为进行特征工程提供理论依据。#coding:utf-8#导入warnings包,利用过滤器来实现忽略警告语句。import warningswarnings.filterwarnings('ignore')import numpy as npimport pandas as pd

2021-04-16 22:16:09 73

原创 二手车交易价格预测task2

## 基础工具import numpy as npimport pandas as pdimport warningsimport matplotlibimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.special import jnfrom IPython.display import display, clear_outputimport timeimport csvwarnings.filterwarn

2021-04-16 21:53:51 156

原创 智慧海洋task1

地理数据分析常用工具shapelyPointLineStringsLineRingsPolygongeopandasFoliumKepler.glGeoHashshapelyshapely是python中开源的空间几何对象库,支持Point(点),LineString(线), Polygon(面)等几何对象及相关空间操作。特性几何对象可以和numpy.array互相转换。可以轻松求线的长度(length),面的面积(area),对象之间的距离(dista

2021-04-15 00:04:47 148 1

转载 二手车交易价格预测task1

赛题概况赛题以预测二手车的交易价格为任务,数据集报名后可见并可下载,该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取15万条作为训练集,5万条作为测试集A,5万条作为测试集B,同时会对name、model、brand和regionCode等信息进行脱敏。本赛题的评价标准为MAE(Mean Absolute Error)????*MAE=∑i=1n∣yi−y^i∣nMAE=\frac{\sum_{i=1}^{n}\l

2021-04-11 20:16:15 234

原创 task5心跳分类预测模型融合

模型融合的方式1.简单加权融合2.stacking/blending3.boosting/baggingstacking原理stacking是一种分层模型集成框架。以两层为例,第一层由多个基学习器组成,其输入为原始训练集,第二层的模型则是以第一层基学习器的输出作为训练集进行再训练,从而得到完整的stacking模型, stacking两层模型都使用了全部的训练数据。blending原理Blending与Stacking大致相同,只是Blending的主要区别在于训练集不是通过K-

2021-03-28 22:25:42 253

原创 task4心跳信号分类模型

心跳分类预测模型逻辑回归通过联系函数将线性回归z变化为g(z),并使g(z)的值分布在(0,1)之间这个联系函数为Sigmoid函数g(z) = 1 / (1+e-z)ln y(x) / (1-y(x))将 y(x) 和 1-y(x) 看作一对正反例发生的概率y(x) 表示某样本的标签被预测为1的概率1-y(x) 表示某样本的标签被预测为0的概率y(x)/ (1-y(x)) 是样本的标签被预测为1的相对概率使用最大似然法和概率分布函数推出逻辑回归的损失函数逻辑回归优点1.逻辑回归

2021-03-25 22:28:30 162

转载 task3心跳信号预测特征工程

特征工程导入包并读取数据# 包导入import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh import extract_features, select_featuresfrom tsfresh.utilities.dataframe_functions import impute# 数据读取data_train = pd.read_csv("train.csv")data_test_A = pd.r

2021-03-22 20:11:49 68

原创 task2心跳信号预测数据分析

心跳信号分类数据分析载入各种数据科学以及可视化库:数据科学库 pandas、numpy、scipy;可视化库 matplotlib、seabon;载入数据:载入训练集和测试集;简略观察数据(head()+shape);数据总览:通过describe()来熟悉数据的相关统计量通过info()来熟悉数据类型判断数据缺失和异常查看每列的存在nan情况异常值检测了解预测值的分布总体分布概况查看skewness and kurtosis查看预测值的具体频数

2021-03-19 13:26:15 113

原创 task1心跳信号分类预测

Task1赛题理解Tip:本次新人赛是Datawhale与天池联合发起的零基础入门系列赛事第五场 —— 零基础入门心电图心跳信号多分类预测挑战赛。2016年6月,国务院办公厅印发《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》,文件指出健康医疗大数据应用发展将带来健康医疗模式的深刻变化,有利于提升健康医疗服务效率和质量。赛题以心电图数据为背景,要求选手根据心电图感应数据预测心跳信号,其中心跳信号对应正常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。通过这道赛题来引导大

2021-03-16 22:00:57 104

转载 Task 作者信息关联

任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间以某种方式相联系的数学模型。Graph在现实世界中随处可见,如交通运输图、旅

2021-01-25 23:02:32 96

转载 task 论文代码统计

任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置;使用正则表达式完成匹配;完成相关的统计;具体代码实现以及讲解首先我们来统计论文页数,也就是在comments字段中抽取pages和figures和个数

2021-01-19 17:42:52 95

转载 task论文作者统计

任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们我们首先需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;具体操作可以参考以下例子:C. Bal\'azs, E. L. Berger, P. M. Nadolsk

2021-01-16 20:11:50 62

原创 task1论文数据统计

任务1:论文数据统计1.1 任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;可参考的学习资料:开源组织Datawhale joyful-pandas项目数据集的格式如下:id:arXiv ID,可用于访问论文;submitter:论文提交者;authors:论文作者;title:论文标题;comments:论文页数和图表等其他信息;journal-ref

2021-01-14 00:22:38 133

原创 2020-11-28

from numpy . linalg import invfrom numpy import dot, transposeX = [[1, 6, 2] , [1, 8, 1] , [1, 10, 0] , [1 , 14, 2] , [1, 18, 0]]y = [[7] , [9] , [13] , [17.5] , [18]]print(X)print(y)[[1, 6, 2], [1, 8, 1], [1, 10, 0], [1, 14, 2], [1, 18, 0]][[7], [9

2020-11-28 20:41:07 84 1

原创 Datawhale-numpy随机抽样

1.创建一个形为5×3的二维数组,以包含5到10之间的随机数。import numpy as npx = np.random.randint(5, 10, [5, 3])xarray([[9, 6, 5],[5, 6, 8],[9, 9, 7],[7, 8, 9],[5, 9, 7]])2.创建分别具有5000个数据的训练集(xi,y)和测试集(xi,y),其中xi在间隔(-10,10)上均匀随机分布。为了使回归问题“真实”,大的均匀噪声分布在[-0.2,0.2]已添加到所有训练样本中

2020-11-25 18:14:56 316 1

原创 Datawhale-numpy下输入与输出

2020-11-23 17:15:27 111 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除