自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 收藏
  • 关注

原创 零基础入门数据挖掘之心电图分类 Task5 建模融合

此次学习是整个学习的最后一节。收获颇丰!感谢datawhale提供的平台!模型融合在前面的特征工程中,特征融合也是一个重要的环节,而对于模型的融合也是一个相当重要的环节。俗话说:三个臭皮匠顶个诸葛亮常见的模型融合有以下三大类型的方法简单的加权融合:这部分比较好理解,光看名字就可以理解例如回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean);分类:投票(Voting)综合:排序融合(Rank averaging),log融合stack

2021-03-28 15:03:11 150

原创 零基础入门数据挖掘 - 心电图分类预测 建模与调参

目标学习建模过程,并了解调参的过程。总结由于自身机器的原因无法对特征进行提取并做工程,以至于影响到了此次学习的代码实践。所以此次学习我主要是用自己的理解对这些建模过程和调参的流程进行重述和总结。经过此次学习,我对模型的优化和调参有了更深刻的理解,明白了什么是调参侠。如何对模型逼近最优解,选择一个合适的模型也尤为关键。但似乎此次学习给的参数几乎是最优的了,无法对其进行更优的调参,等下次学习看是否可以提高模型效果此次学习的文章链接逻辑回归模型参考链接逻辑回归虽说是回归模型,但是做的较多的是分类任

2021-03-25 21:19:33 265

原创 2021-03-20

目标学习时间序列数据的特征预处理方法学习时间序列特征处理工具 Tsfresh(TimeSeries Fresh)的使用数据预处理时间序列数据格式处理加入时间步特征time特征工程时间序列特征构造特征筛选使用 tsfresh 进行时间序列特征处理# 包导入import pandas as pdimport numpy as npimport tsfresh as tsffrom tsfresh import extract_features, select_featuresfro

2021-03-20 10:53:42 122

原创 datawhale——EDA

EDA目标EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。完成对于数据的探索性分析,并对于数据进行一些图表或者文字总结并打卡。这次学习的EDA总结由于数据比较干净,因此EDA需要的工作较少。可以进入特征工程这个步骤...

2021-03-17 21:31:14 85

原创 零基础入门心电图心跳信号多分类预测挑战赛——赛题理解

Task1 赛题理解学习目标理解赛题数据和目标,对评分体系进行理解在阿里云完成报名,并下载好数据熟悉比赛过程(baseline)1.1 赛题概况比赛要求参赛选手根据给定的数据集,建立模型,预测不同的心跳信号。赛题以预测心电图心跳信号类别为任务,数据集报名后可见并可下载,该该数据来自某平台心电图数据记录,总数据量超过20万,主要为1列心跳信号序列数据,其中每个样本的信号序列采样频次一致,长度相等。为了保证比赛的公平性,将会从中抽取10万条作为训练集,2万条作为测试集A,2万条作为测试集B,同时会对心

2021-03-15 19:05:38 394

原创 异常检测——高维数据异常检测

主要内容Feature Bagging孤立森林引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间方法。集成是子空间思想中常用的方法之一,可以有效提高数据挖掘算法精度

2021-01-23 15:48:24 118

原创 异常检测——基于相似度的方法

主要内容包括:基于距离的度量基于密度的度量概述“异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。  在普通的数据处理中,我们常常需要保留正常数据,而对噪声和异常值的特性则基本忽略。但在异常检测

2021-01-21 14:26:02 157

原创 异常检测_线性相关方法

线性模型内容引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。   一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。需要明确的是,这里有两个重要的假设:假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论

2021-01-18 13:40:54 120

原创 异常检测——基于统计学的方法(学习blog))

异常检测——基于统计学方法概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。参数方法假定正常

2021-01-15 13:47:25 111

原创 2021-01-12

天池学习第一阶段–异常检测概述异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。异常的类别点类别指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;上下文异常又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易群体异常指的是在群体

2021-01-12 01:09:21 230

原创 2020-09-20

python画图时需要对坐标用中文时 需加下面代码才能显示注意坐标轴处的名称为英文状态,当修改为中文时,是无法显示的,那么在代码中加入两行代码plt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False如下所示:...

2020-09-20 22:08:36 74

原创 第三章 模型搭建和评估--建模

复习经过前面的两章的知识点的学习,我可以对数数据的本身进行处理,比如数据本身的增删查补,还可以做必要的清洗工作。那么下面我们就要开始使用我们前面处理好的数据了。这一章我们要做的就是使用数据,我们做数据分析的目的也就是,运用我们的数据以及结合我的业务来得到某些我们需要知道的结果。那么分析的第一步就是建模,搭建一个预测模型或者其他模型;我们从这个模型的到结果之后,我们要分析我的模型是不是足够的可靠,那我就需要评估这个模型。今天我们学习建模,下一节我们学习评估。内容导入库和一些预先的准备import pa

2020-08-24 15:13:38 586

原创 天池学习数据可视化

以下代码都在jupyter notebook 运行过复习回顾学习完第一章,我们对泰坦尼克号数据有了基本的了解,也学到了一些基本的统计方法,第二章中我们学习了数据的清理和重构,使得数据更加的易于理解;今天我们要学习的是第二章第三节:数据可视化,主要给大家介绍一下Python数据可视化库Matplotlib,在本章学习中,你也许会觉得数据很有趣。在打比赛的过程中,数据可视化可以让我们更好的看到每一个关键步骤的结果如何,可以用来优化方案,是一个很有用的技巧。数据可视化导入文件text = pd.read

2020-08-24 14:13:25 275

原创 数据重构

数据重构先将数据载入,利用head()方法查看数据的信息利用concat方法:将数据train-left-up.csv和train-right-up.csv横向合并为一张表,并保存这张表为result_uplist_up = [text_left_up,text_right_up]result_up = pd.concat(list_up,axis=1)result_up.head()使用concat方法:将train-left-down和train-right-down横向合并为一张表,并保

2020-08-23 23:54:36 147

原创 学习打卡

学习目的:内容分析数据的周期性方法一:除以周均值,然后按列取中位数方法二:季节指数的计算方式,获得每日(工作日或周末)均值,再除以整体均值预测1.乘以base2.去周期后再平均预测下一个月每一天的情况step1:获得每日的均值step2:统计每日为周一周日的频次step3:基于星期周期因子获得的加权均值step4:根据因子和每日均值预测由于是刚入门还看不懂代码只能课后自己继续研究...

2020-08-21 14:17:24 136

原创 第二章:数据清洗及特征处理

总结1.对缺失值观察有以下两种方法df.info() #可以直接看到不缺失的值的数量df.isnull().sum() # 统计缺失值的数量单独提取 Age Cabin Embarked这三个特征df[['Age','Cabin','Embarked']].head(3)2.对缺失值的处理两种比较优劣df[df['Age'] == np.nan] = 0df[df['Age']==None]=0数值列读取数据后,空缺值的数据类型为float64所以用None一般索引不到,比较的

2020-08-21 13:24:43 161

原创 数据探索性分析

前言本次学习以天池比赛为背景进行。赛题链接添加链接描述开始先对赛题的数据进行分析和理解。出现的问题和疑惑由于对python 的库的知识掌握不是很充分所以对一些方法和属性的运用很不熟练也很吃力,连最基础的数据拼接等都有所困惑所以得花更长的时间进行处理和学习。所以还看不出问题 希望可以考虑一下初学者的基础 嘻嘻...

2020-08-20 15:47:40 81

原创 Task01:数据加载及探索性数据分析

第一章以下代码都运行过1.1数据载入与观察import numpy as npimport pandas as pd先导入库后利用库函数载入数据分为用绝对路径载入和相对路径载入df = pd.read_csv('train.csv') # 相对df = pd.read_csv('C:/Users/10464/Desktop/动手学数据分析-组队学习版/第一单元项目集合/train.csv') # 绝对知道数据加载的方法后,试试pd.read_csv()和pd.read_tabl

2020-08-19 02:56:58 135

原创 文件与文件系统

#1. 文件与文件系统open(file, mode=‘r’, buffering=None, encoding=None, errors=None, newline=None, closefd=True) Open file and return a stream. Raise OSError upon failure.file: 必需,文件路径(相对或者绝对路径)。mode: 可选,文件打开模式buffering: 设置缓冲encoding: 一般使用utf8errors: 报错级别new

2020-08-05 16:59:32 130

原创 模块和datetime

模块在前面我们脚本是用 Python 解释器来编程,如果你从 Python 解释器退出再进入,那么你定义的所有的方法和变量就都消失了。为此 Python 提供了一个办法,把这些定义存放在文件中,为一些脚本或者交互式的解释器实例使用,这个文件被称为模块(Module)。模块是一个包含所有你定义的函数和变量的文件,其后缀名是.py。模块可以被别的程序引入,以使用该模块中的函数等功能。这也是使用 Python 标准库的方法。什么是模块容器 -> 数据的封装函数 -> 语句的封装类 -&g

2020-08-05 16:32:57 112

原创

方法在 Python 中定义私有变量只需要在变量名或函数名前加上“__”两个下划线,那么这个函数或变量就会为私有的了。class Site:def init(self, name, url):self.name = name # publicself.__url = url # privatedef who(self):print('name : ', self.name)print('url : ', self.__url)def __foo(self): # 私有方法prin

2020-08-05 15:50:55 148

原创 Task6 基于深度学习的文本分类3

学习目标了解Transformer的原理和基于预训练语言模型(Bert)的词表示学会Bert的使用,具体包括pretrain和finetuneTransformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但是并不共享参数,每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后,它们首先流过一个s

2020-08-04 15:48:22 115

原创 函数与Lambda表达式

函数函数以def关键词开头,后接函数名和圆括号()。函数执行的代码以冒号起始,并且缩进。return [表达式] 结束函数,选择性地返回一个值给调用方。不带表达式的return相当于返回None。函数文档的知识def MyFirstFunction(name):“函数定义过程中name是形参”# 因为Ta只是一个形式,表示占据一个参数位置print(‘传递进来的{0}叫做实参,因为Ta是具体的参数值!’.format(name))MyFirstFunction(‘老马的程序人生’)#传递

2020-08-02 15:00:17 110

原创 字典序列

字典数值、字符和元组 都能被哈希,因此它们是不可变类型。列表、集合、字典不能被哈希,因此它是可变类型。作业集合从结果发现集合的两个特点:无序 (unordered) 和唯一 (unique)。由于 set 存储的是无序集合,所以我们不可以为集合创建索引或执行切片(slice)操作,也没有键(keys)可用来获取集合中元素的值,但是可以判断一个元素是否在集合中。set.update(set)用于修改当前集合,可以添加新的元素或集合到当前集合中,如果添加的元素在集合中已存在,则该元素只会出现一

2020-07-30 16:20:51 334

原创 Task5 基于深度学习的文本分类2

Word2Vec这是具体的资料添加链接描述下面我谈谈个人的理解1.CBOW模型这个模型主要是根据上下文预测当前词INPUT:文本中自己设定的窗口中包含的词向量,这个词向量是one-hot表示的(即对于每个输入的词,其表示方式是one-hot),PROJECTION:可以理解为隐藏层,直接将输入的向量进行累加求和(先进行线性变换,然后求加和)OUTPUT:输出层对应一个二叉树,它是以文本中出现过的词当做叶子结点,以各词出现的次数当做权值,来构建Huffman树,我们最终的w(t)实际也是一个o

2020-07-30 14:59:20 101

原创 字典、集合和序列 出现不熟悉的地方

列表利用推导式创建列表x = [0] * 5print(x, type(x))x = [0 for i in range(5)]x = [i for i in range(10)]x = [i for i in range(1, 10, 2)]x = [i for i in range(10, 1, -2)]x = [i ** 2 for i in range(1, 10)]x = [i for i in range(100) if (i % 2) != 0 and (i % 3) =

2020-07-28 15:00:26 80

原创 Task4 基于深度学习的文本分类1

基于深度学习的文本分类与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。目标学会fasttext 的使用和基础原理学会使用验证集进行调参回顾上一章节我们了解了sklearn的文本分类方法 但是我们发现sklearn 的方法消耗时间长 而且没有考虑词语之间的关系 只是进行统计FastTextFastText是一种典型的深度学习词向量的表示方法,它非常简单通过Embedding层将单词映射到稠密空间,然后将句子中所有的单词在

2020-07-27 17:34:01 94

原创 异常处理

异常就是运行期检测到的错误。计算机语言针对可能出现的错误定义了异常类型,某种错误引发对应的异常时,异常处理程序将被启动,从而恢复程序的正常运行。1. Python 标准异常总结BaseException:所有异常的 基类Exception:常规异常的 基类StandardError:所有的内建标准异常的基类ArithmeticError:所有数值计算异常的基类FloatingPointError:浮点计算异常OverflowError:数值运算超出最大限制ZeroDivisionError:

2020-07-25 20:49:00 110

原创 Task3 基于机器学习的文本分类

学习目标1.学会TF-IDF的原理和使用2.使用sklearn的机器学习模型完成文本分类TF-IDF具体的内容可以看这篇文章添加链接描述文本表示方法在机器学习算法的训练过程中,假设给定NNN个样本,每个样本有MMM个特征,这样组成了N×MN×MN×M的样本矩阵,然后完成算法的训练和预测。同样的在计算机视觉中可以将图片的像素看作特征,每张图片看作hight×width×3的特征图,一个三维的矩阵来进入计算机进行计算。但是在自然语言领域,上述方法却不可行:文本是不定长度的。文本表示成计算机能够运

2020-07-24 17:51:48 128

原创 python基础if和循环语句

if类ifif 2 > 1 and not 2 > 3: print('天池')if elsetemp = input("猜一猜小姐姐想的是哪个数字?")guess = int(temp) # input 函数将接收的任何数据类型都默认为 str。if guess == 666: print("你太了解小姐姐的心思了!") print("哼,猜对也没有奖励!")else: print("猜错了,小姐姐现在心里想的是666!")print("游戏

2020-07-23 22:23:46 336

原创 Task2 数据读取与数据分析

学习目标学习使用pandas读取赛题数据对赛题数据进行分析看规律数据读取读入import pandas as pdtrain_df = pd.read_csv('train_set.csv', sep='\t', nrows=200000) # 读取200000个数据没有出现内存不足的情况这里的read_csv由三部分构成:读取的文件路径,这里需要根据改成你本地的路径,可以使用相对路径或绝对路径;分隔符sep,为每列分割的字符,设置为\t即可;读取行数nrows,为此次读取文件的函数,

2020-07-22 18:16:46 90

原创 变量、运算符与数据类型

环境本人使用pycharm作为编译环境,对文中给出的例子进行练习例子练习课后作业1.怎样对python中的代码进行注释?利用#对单行进行注释 ‘’‘对中间的全部进行注释 可对多行进行’‘’2.python有哪些运算符,这些运算符的优先级是怎样的?一元运算符优于二元运算符,先算术运算,后移位运算,最后位运算。逻辑运算最后结合3.python 中 is, is not 与 ==, != 的区别是什么?is, is not 对比的是两个变量的内存地址==, != 对比的是两个变

2020-07-21 19:02:44 100

原创 Task1_零基础入门NLP之新闻文本分类

基于比赛的学习天池对应比赛:https://tianchi.aliyun.com/competition/entrance/531810/introduction赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题,通过这道赛题可以引导我们走入自然语言处理的世界,带我们接触NLP的预处理、模型构建和模型训练等知识点。Task1对赛题进行初步的认识和了解赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下载。赛题数据为新闻文本,并按照字符级别进行匿名处理

2020-07-20 16:41:30 132

原创 模型集成

模型集成作用是:提高预测的精度目前接触较多的集成学习主要有2种:基于Boosting的和基于Bagging,前者的代表算法有Adaboost、GBDT、XGBOOST、后者的代表算法主要是随机森林。集成学习的主要思想是利用一定手段学习出多个分类器,而且这多个分类器的要求是弱分类器,然后将多个分类器进行组合公共预测。核心思想就是如何训练处多个弱分类器以及如何将这些弱分类器进行组合。Boosting集成2.1 基本概念Boosting方法是一种用来提高弱分类算法准确度的方法,这种方法通过构造一个预测

2020-06-01 21:50:06 153

原创 Datawhale 零基础入门CV赛事-Task4 模型训练与验证

复习上一章节,我们学习了对误差损失的可视化和对第一个字符预测的准确率;众所周知,深度模型养蛊的部分是在深度学习训练过程中的调参。这是在数据集上调参的过程。模型的训练与认证了解认识数据集并对其进行构造训练集(train set) —— 用于模型拟合的数据样本。验证集(development set)—— 是模型训练过程中单独留出的样本集,它可以用于调整模型的超参数和用于对模型的能力进行初步评估。在神经网络中, 我们用验证数据集去寻找最优的网络深度(number of hidden layers)

2020-05-29 10:16:09 306

原创 Datawhale 零基础入门CV赛事-Task3 字符识别模型

1.卷积神经网络(CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一 [1-2] 。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification),因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Network

2020-05-26 20:43:58 452

转载 Datawhale 零基础入门CV赛事-Task2 数据读取与数据扩增

回顾 task1上一章学习了如何学习使用定长字符识别的思路来构建模型 ,也学习了解了 如何对数据进行处理和对赛题的理解2 数据的读取与数据扩增本节分为三部分 数据读取,数据扩增方法和pytorch读取赛题数据 主要是pytorch读取赛题数据2.2图像读取由于赛题数据是图像数据,赛题的任务是识别图像中的字符。因此我们首先需要完成对数据的读取操作,在Python中有很多库可以完成数据读取的操作,比较常见的有Pillow和OpenCV。2.21PillowPillow是Python图像处理函式库

2020-05-22 18:02:20 301 2

原创 Datawhale 零基础入门CV赛事-Task1 赛题理解

1.赛题理解最近datawhale组织了一次学习活动是关于与计算机视觉的竞赛,本次比赛采用了经典的数据集 SVHN 来给我们进行实践操作。比赛的目的是让大家对计算机视觉有初步的认识,感觉这很适合刚入门的小白。学习的目标理解图片数据的含义,懂得关键的参数的意思。将数据集下载到电脑端,明白和了解竞赛的流程1.对下载的数据集进行查看符合赛题的要求和自己参数的设置2.理解数据标签的含义和坐标示意图这对代码层理解图片标注的信息有很好的帮助datawhlae举了一个例子在多个字符的时候数

2020-05-19 18:26:02 189

原创 win10中anaconda安装pytorch的错误

pyorch 安装出现的问题之一先建议查看其他博主的关于清华镜像源的问题 利用镜像源下载速度更快[关于清华镜像源]出现的问题(一)当我输入了conda install pytorch torchvision cudatoolkit=10.2以后出现WARNING这是报错信息WARNING conda.gateways.disk.delete:unlink_or_rename_to_trash(140): Could not remove or rename D:\anaconda\pkg

2020-05-11 12:03:34 12729

原创 Datawhale 零基础入门数据挖掘-Task5 模型融合

模型融合的目标对于多种调参完成的模型进行模型融合。完成对于多种模型的融合,提交融合结果并打卡有以下三种方式简单加权融合: 回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean); 分类:投票(Voting) 综合:排序融合(Rank averaging),log融合stacking/blending: 构建多层模型,并利用预测结果...

2020-04-04 02:34:47 143

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除