![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
文章平均质量分 83
疯子书生z
这个作者很懒,什么都没留下…
展开
-
心电图心跳信号多分类预测-建模调参(四)
1.相关模型及调参方法1.1 相关模型介绍逻辑回归模型https://blog.csdn.net/han_xiaoyang/article/details/49123419 决策树模型https://blog.csdn.net/c406495762/article/details/76262487 GBDT模型https://zhuanlan.zhihu.com/p/45145899 XGBoost模型https://blog.csdn.net/wuzhongqi转载 2021-03-29 14:14:32 · 960 阅读 · 0 评论 -
心电图心跳信号多分类预测-模型融合(五)
目录模型融合介绍本赛题代码实现划分训练集和校验集单模函数加权融合Stacking融合Blending模型融合介绍融合多个不同的模型会提升机器学习准确率。一般在比赛中都很常见。一般来说模型融合有以下几种方式:1.简单加权融合:回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合2.stacking/blending:构建多层模型,并利用预测结果转载 2021-03-29 14:12:54 · 912 阅读 · 0 评论 -
心电图心跳信号多分类预测-特征提取(三)
目录1.时间序列数据特征预处理1.1 代码示例1.1.1. 导入包1.1.2 数据预处理1.1.3 使用 tsfresh 进行时间序列特征处理1.时间序列数据特征预处理1.1 代码示例1.1.1. 导入包# 包导入import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh import extract_features, select_featuresfrom tsfresh.utilities.datafr原创 2021-03-22 13:59:32 · 3072 阅读 · 3 评论 -
心电图心跳信号多分类预测-EDA(二)
数据分析赛题:心电图心跳信号多分类预测2.1 EDA 目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。2.2 内容介绍载入各种数据科学以及可视化库:数据科学库 pandas、numpy、scipy;可视化库 matplot原创 2021-03-16 17:00:33 · 844 阅读 · 1 评论 -
心电图心跳信号多分类预测(一)
目录1.赛题理解1.1赛题概况1.2数据概况1.3代码示例1.3.1数据读取1.3.2分类指标计算示例2.baseline2.1 导入第三方包2.2 读取数据2.3.数据预处理2.4.训练数据/测试数据准备2.5.模型训练2.6.预测结果1.赛题理解Tip:心电图心跳信号多分类预测挑战赛。2016年6月,国务院办公厅印发《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》,文件指出健康医疗大数据应用发展将带来健康医疗模式的深刻变化,有利于提升健康医疗服务效率和质量。赛题以心电图数据为背景,原创 2021-03-15 16:57:35 · 4187 阅读 · 2 评论 -
DCIC-早高峰共享单车潮汐点的群智优化(1)
目录学习主题赛题说明赛题任务代码学习主题:比赛链接: https://data.xm.gov.cn/contest-series-api/promote/register/3/UrnA69nb.赛题说明共享单车,延伸了城市公共交通脉络,解决了市民出行“最后一公里”问题。然而,随着共享经济模式被越来越多市民接受,成为出行习惯,潮汐现象也随之出现。白天工作、晚上休息的人类活动规律的客观存在,加之上下班时间段的集中,导致早晚高峰“一车难寻”、“无地可停”的供需矛盾。本题希望通过对车辆数据的综合分析,对厦原创 2021-02-19 17:59:45 · 1380 阅读 · 3 评论 -
数据分析---arXiv论文作者统计
任务2:论文作者统计2.1 任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;2.2 数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们首先需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;具体操作可以参考以下例子:C. Bal\\'azs, E. L. Berger, P. M. Nadolsky原创 2021-01-15 13:26:59 · 331 阅读 · 0 评论 -
数据挖掘概念与技术第一章
原创 2021-01-14 09:46:27 · 152 阅读 · 0 评论 -
数据分析---arXiv论文数据统计
这里写目录标题1.论文数据统计1.1 任务说明1.2 数据集介绍1.3 arxiv论文类别介绍1.4 具体代码实现以及讲解1.4.1 导入package并读取原始数据1.4.2 数据预处理1.4.3 数据分析及可视化1.论文数据统计1.1 任务说明主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;内容:使用 Pandas 读取数据并进行统计;1.2 数据集介绍数据集来源:数据集链接;数据集的格式如下:id:arXiv ID,可用于访问论文;submitter:论原创 2021-01-10 09:19:32 · 2166 阅读 · 0 评论 -
Numpy基础教程(四)---数学函数与逻辑函数
目录1. 数学函数1.1 向量化和广播1.2 数学函数1.2.1 算数运算1.3三角函数1.4 指数和对数1.5加法函数、乘法函数1.5.1 numpy.sum1.5.2 numpy.cumsum1.5.3 numpy.prod 乘积1.5.4 numpy.cumprod 累乘1.5.5 numpy.diff 差值1.6 四舍五入1.6.1numpy.around 舍入1.6.2 numpy.ceil 上限与numpy.floor 下限1.7杂项1.7.1numpy.clip 裁剪1.7.2numpy.ab原创 2020-12-04 16:34:29 · 150 阅读 · 0 评论 -
Numpy基础教程(三)---数组操作
目录数组操作1.更改形状2. 数组转置3. 更改维度4.数组组合5.数组拆分6.数组平铺7.添加和删除元素数组操作1.更改形状在对数组进行操作时,为了满足格式和计算的要求通常会改变其形状。numpy.ndarray.shape表示数组的维度,返回一个元组,这个元组的长度就是维度的数目,即 ndim 属性(秩)。通过修改 shape 属性来改变数组的形状。import numpy as npx = np.array([1, 2, 9, 4, 5, 6, 7, 8])print(x.sh原创 2020-12-04 15:58:52 · 134 阅读 · 0 评论 -
Numpy基础教程(二)----索引、切片及迭代
目录1.副本与视图2.索引与切片2.1整数索引2.2 切片索引2.3 dots 索引2.4 整数数组索引2.5 布尔索引3. 数组迭代1.副本与视图在介绍索引和切片之前,先介绍以下副本与视图。在 Numpy 中,尤其是在做数组运算或数组操作时,返回结果不是数组的 副本 就是 视图。在 Numpy 中,所有赋值运算不会为数组和数组中的任何元素创建副本。numpy.ndarray.copy() 函数创建一个副本。 对副本数据进行修改,不会影响到原始数据,它们物理内存不在同一位置。import nu原创 2020-11-28 15:34:37 · 135 阅读 · 0 评论 -
Numpy基础教程(一)-----数组属性及创建
目录1.Numpy简介1.1Scipy简介1.2Matplotlib 简介1.3 相关链接1.4 numpy 安装2. NumPy Ndarray 对象2.1 参数说明2.2 常量2.2.1 numpy.nan2.2.2 numpy.inf3. 数据类型3.1 常见数据类型3.2 数据类型对象 (dtype)4.时间日期和时间增量4.1 datetime64 基础4.2datetime64 和 timedelta64 运算4.3 datetime64 的应用5. 数组属性及创建数组5.1 NumPy 数组属原创 2020-11-26 19:25:24 · 364 阅读 · 0 评论 -
pandas ----数据分类(category)
目录1.category的创建及其性质1.1. 分类变量的创建1.2. 分类变量的结构1.3. 类别的修改2.分类变量的排序2.1. 序的建立3.分类变量的比较操作3.1. 与标量或等长序列的比较3.2. 与另一分类变量的比较1.category的创建及其性质这是对pandas分类数据类型的介绍,包括与R的简短比较factor。category是与统计中分类变量相对应的 pandas数据类型...原创 2020-05-08 11:20:10 · 3019 阅读 · 0 评论 -
pandas ------ 文本类型数据处理
目录1. string类型的性质1.1. string与object的区别2. string类型的转换2.拆分与拼接2.1. str.split方法2.2. str.cat方法3.替换3.1. str.replace的常见用法3.2. 子组与函数替换4.子串匹配与提取4.1. str.extract方法4.2. str.extractall方法4.3. str.contains和str.match...原创 2020-05-06 17:28:02 · 780 阅读 · 0 评论 -
pandas -----缺失数据处理
目录一、缺失观测及其类型1.1. 了解缺失信息1.2. 三种缺失符号1.3. Nullable类型与NA符号1.4. NA的特性1.5. convert_dtypes方法二、缺失数据的运算与分组2.1. 加号与乘号规则2.2. groupby方法中的缺失值三、填充与剔除3.1. fillna方法3.2. dropna方法四、插值(interpolation)4.1. 线性插值4.2. 高级插值方法...原创 2020-05-04 15:04:35 · 959 阅读 · 0 评论 -
pandas -----合并全集(append、aassign、combine、upadte、concate、merge、join)
目录1.导入数据2.append与assign2.1 append方法2.2. assign方法3.combine与update3.1. comine方法1.导入数据import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv')df.head()SchoolClassIDGenderAd...原创 2020-04-30 17:36:18 · 342 阅读 · 0 评论 -
pandas -----变形(透视表、melt、stack、unstack),哑变量与因子变化
目录导入数据1. 透视表1. 1 pivot1.2. pivot_table1.3 crosstab(交叉表)2.其他变形方法2.1. melt2.2. 压缩与展开3.哑变量与因子化3.1. Dummy Variable(哑变量)3.2. factorize方法5.练习导入数据import numpy as npimport pandas as pddf = pd.read_csv('da...原创 2020-04-26 17:26:43 · 1267 阅读 · 1 评论 -
数据挖掘 ---- Pandas之分组
目录导入模块及数据1. SAC过程1.1 内涵1.2. apply过程2. groupby函数2.1. 分组函数的基本内容:2.2. groupby对象的特点3.聚合、过滤和变换3.1. 聚合(Aggregation)3.2.2. 过滤(Filteration)3. 变换(Transformation)4.apply函数4.1. apply函数的灵活性4.2. 用apply同时统计多个指标5.练...原创 2020-04-24 16:40:55 · 428 阅读 · 0 评论 -
数据挖掘---- pandas之索引
目录1.单级索引1. 1 loc方法、iloc方法、[ ]操作符1.1.1 loc方法(注意:所有在loc中使用的切片全部包含右端点!)1.1.2 iloc方法(注意与loc不同,切片右端点不包含)1.2 布尔索引1.2.1 布尔符号:'&','|','~':分别代表和and,或or,取反not1.2.2 isin方法1.2.3 快速标量索引1.2.4 区间索引1.2.4.1利用inte...原创 2020-04-21 17:56:36 · 554 阅读 · 0 评论 -
python-------assign的使用方法
assign的用途是增加新的一列df1['B']=list('abc')df1AB11a22b33cdf1.assign(C=pd.Series(list('def')))ABC11ae22bf33cNaN没有指定Series的index默认是从0开始的。使用assign添...原创 2020-04-20 10:38:27 · 13785 阅读 · 1 评论 -
数据挖掘 -------pandas基础(文件读写、数据结构、常用基本函数)
目录1.简介2. 文件读写2.1读取2.2 写入2.3 pandas数据结构2.3.1 Series2.3.2DataFrame3.常用基本函数3.1. head和tail3.2 unique和nunique3.3 count和value_counts3.4 describe和info3.5 idxmax和nlargest3.6 clip和replace3.7 apply函数4.排序4.1索引排序...原创 2020-04-19 17:34:13 · 733 阅读 · 0 评论 -
数据挖掘(一)-探索性数据分析
目录探索性数据分析EDA目标项目介绍具体实现1.导入相关包2.载入数据3.数据简要浏览3.1数据描述3.2数据信息查看探索性数据分析探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。在我们队一个项目制定的以及实施的过程中有什么疑问性的问题,我们都可以做一...原创 2020-03-22 16:51:49 · 2553 阅读 · 0 评论 -
数据挖掘(二)---特征工程
特征工程目录特征工程特征工程目标特征工程内容介绍特征工程目标对于特征进行进一步分析,并对数据进行处理以及生成可视化图表。特征工程内容介绍常见的特征工程包括以下几种:1.异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;2.特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);针对...原创 2020-03-28 17:07:49 · 782 阅读 · 0 评论 -
数据挖掘(三)---建模与调参
目录建模调参简介1.1读取数据2.1线性回归 & 五折交叉验证 & 模拟真实业务情况2.1.1简单建模2.1.2 五折交叉验证2.1.3 模拟真实业务情况2.1.4绘制学习率曲线与验证曲线2.2 多种模型对比2.2.1 线性模型 & 嵌入式特征选择2.2.2 非线性模型2.2.3 模型调参2.2.3.1贪心调参2.2.3.2Grid Search 调参2.2.3.3贝叶斯调...原创 2020-04-01 17:41:44 · 442 阅读 · 0 评论 -
数据挖掘(四)---模型融合
目录1.模型融合介绍1.1Stacking介绍1.2 如何进行stacking1.3stacking方法详解2.代码实例2.1回归\分类概率-融合2.1.1简单加权平均,结果直接融合2.1.2 Stacking融合(回归)2.2分类模型融合2.2.1Voting投票机制2.2.2分类的Stacking\Blending融合2.2.3分类的Stacking融合(利用mlxtend)2.3.4 其他方...原创 2020-04-04 13:28:20 · 524 阅读 · 0 评论