- 博客(33)
- 收藏
- 关注
原创 模型融合
文章目录一、融合类型简单的加权融合stacking/blendingboosting/bagging二、总结融合的优势一、融合类型简单的加权融合回归(分类概率):算术平均融合,几何平均融合分类:投票综合:排序融合,Log融合stacking/blending构建多层模型,利用预测的结果进行再次拟合预测boosting/bagging多树提升(xgboost,Adaboost,GBDT)二、总结融合的优势结果层面的融合,这种是最常见的融合方法,其可行的融合方法也有很.
2021-03-28 19:04:28 199
原创 数据分析(EDA)
文章目录一、pandas是什么?二、使用步骤1.引入库2.读入数据总结一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignor
2021-03-19 20:12:59 1124
原创 赛题理解以及baseline学习
文章目录一、赛题理解1.赛题概况2.数据概况3.预测指标4.赛题分析二、baseline一、赛题理解1.赛题概况以10万条数据为训练集,以2万条数据为测试集2.数据概况train.csvid 为心跳信号分配的唯一标识heartbeat_signals 心跳信号序列(数据之间采用“,”进行分隔)label 心跳信号类别(0、1、2、3)testA.csvid 心跳信号分配的唯一标识heartbeat_signals 心跳信号序列(数据之间采用“,”进行分隔)3.预测指
2021-03-16 21:24:07 399
原创 数据分析:作者信息关联
文章目录任务说明一、数据处理步骤二、社交网络分析图类型图统计指标任务说明学习主题:作者关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论文作者知识图谱、图关系挖掘一、数据处理步骤将作者列表进行处理,并完成统计。具体步骤如下:将论文第一作者与其他作者(论文非第一作者)构建图;使用图算法统计图中作者与其他作者的联系;二、社交网络分析图是复杂网络研究中的一个重要概念。Graph是用点和线来刻画离散事物集合中的每对事物间
2021-01-25 19:24:26 272
原创 异常检测:高维数据异常检测
文章目录引言一、Feature Bagging1.选择基检测器2.分数标准化和组合方法二、Isolation Forests引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是
2021-01-25 00:10:14 245
原创 数据分析:论文种类分类
文章目录任务说明一、数据处理步骤二、文本分类思路任务说明学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;学习内容:使用论文标题完成类别分类;学习成果:学会文本分类的基本方法、TF-IDF等;一、数据处理步骤在原始arxiv论文中论文都有对应的类别,而论文类别是作者填写的。在本次任务中我们可以借助论文的标题和摘要完成:对论文标题和摘要进行处理;对论文类别进行处理;构建文本分类模型;二、文本分类思路思路1:TF-IDF+机器学习分类器直接使用TF-IDF对文
2021-01-23 01:19:08 597
原创 异常检测:基于相似度的方法
文章目录基于相似度的方法一、概述二、基于距离的度量1.基于单元的方法2.基于索引的方法三、基于密度的度量1.k-距离(k-distance(p))2. k-邻域(k-distance neighborhood)3. 可达距离(reachability distance)4. 局部可达密度(local reachability density)基于相似度的方法基于距离的度量基于密度的度量一、概述“异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。
2021-01-22 00:07:57 193
原创 数据分析:论文代码统计
文章目录任务说明一、数据处理步骤二、正则表达式1.普通字符:大写和小写字母、所有数字、所有标点符号和一些其他符号2.特殊字符:有特殊含义的字符3.限定符任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;一、数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里面找出代码的链接。确定数据出现的位置;使用正则表达
2021-01-18 20:52:05 268
原创 异常检测:线性回归
文章目录引言一、线性回归二、梯度下降法三、基于异常检测的线性回归四、归一化问题五、回归分析的局限性总结引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。 一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。需要明确的是,这里有
2021-01-18 20:45:24 1031
原创 数据分析学习:论文作者统计
文章目录论文作者统计一、数据处理步骤二、字符串处理三、具体代码实现以及讲解论文作者统计任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;一、数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们我们首先需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;具体操作可以参考以下例
2021-01-16 23:30:12 419
原创 异常检测:基于统计学的方法
文章目录一、概述二、参数方法基于正态分布的一元异常点检测多元异常点检测多个特征相关,且符合多元高斯分布三、非参数方法四、HBOS五、总结一、概述统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。
2021-01-15 23:15:03 250
原创 pandas 学习:最后的作业
文章目录一、显卡日志二、水压站点的特征工程一、显卡日志下面给出了3090显卡的性能测评日志结果,每一条日志有如下结构:Benchmarking #2# #4# precision type #1##1# model average #2# time : #3# ms其中#1#代表的是模型名称,#2#的值为train(ing)或inference,表示训练状态或推断状态,#3#表示耗时,#4#表示精度,其中包含了float, half, double三种类型,下面是一个具体的例子:Bench
2021-01-13 22:49:00 100
原创 数据分析:论文数据统计
文章目录一、任务说明二、使用步骤1.引入库2.读入数据总结一、任务说明示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport warningswarnings.filterwarnings('ignore')import
2021-01-13 20:43:30 504
原创 异常检测
文章目录一、什么是异常检测1. 异常的类别2. 异常检测任务分类3. 异常检测场景二、异常检测常用方法1. 传统方法基于统计学的方法线性模型基于相似度的方法2. 集成方法3. 机器学习三、异常检测常用开源库Scikit-learnPyOD一、什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。识别如信用卡欺诈,工业生产异常,网络流里的异常(网络侵入)等问题,针对的是少数的事件。1. 异常的类别点异常:少数个体的异常上下文.
2021-01-12 23:19:19 305
原创 pandas学习:时序数据
文章目录一、时序中的基本对象二、时间戳1. Timestamp的构造及属性2. Datetime序列的生成3. dt对象4. 时间戳的切片与索引三、时间差1. Timedelta的生成2. Timedelta的运算四、日期偏置1. Offset对象2. 偏置字符串五、时序中的滑窗与分组1. 滑动窗口2. 重采样一、时序中的基本对象概念单元素类型数组类型pandas数据类型Date timesTimestampDatetimeIndexdatetime64[ns]Ti
2021-01-10 00:10:25 254
原创 pandas学习:第十天
文章目录分类数据一、cat对象属性增删改二、有序分类序的建立排序与比较三、区间类别利用cut和qcut进行区间构造一般区间的构造区间的属性与方法分类数据一、cat对象属性category类型,使用户能够主力分类类型的变量,将普通序列转化为分类变量用astype方法。对一个分类类型的Series中的cat对象类似于上一章的str对象有两个组成部分,一个是index,另一个为是否有序每一个序列会被赋予唯一的整数编号,取决于cat.categories中的顺序,通过cat.codes来访问增删改
2021-01-07 22:25:20 210
原创 pandas学习:第九天
文章目录文本数据一、str对象str对象的设计意图[]索引器string类型二、正则表达式基础一般字符匹配元字符基础简写字符集三、文本处理的五类操作拆分合并匹配替换提取四、常用字符串函数字母型函数数值型函数统计型函数格式型函数文本数据一、str对象str对象的设计意图定义是在index或series上的属性,用于逐元素处理文本内容[]索引器通过[]来取出某一位置的元素,也能通过其进行切片string类型一般pandas中的元素类型是以object类型的series进行储存的,但是obje
2021-01-06 10:25:45 266 1
原创 pandas:学习第八天
文章目录缺失数据一、缺失值的统计和删除1. 缺失信息的统计2. 缺失信息的删除缺失数据import pandas as pdimport numpy as np一、缺失值的统计和删除1. 缺失信息的统计缺失数据可以使用 isna 或 isnull (两个函数没有区别)来查看每个单元格是否缺失,结合 mean 可以计算出每列缺失值的比例:df = pd.read_csv('data/learn_pandas.csv', usecols = ['Grade',
2021-01-03 23:14:50 91
原创 pandas学习:第一次作业
文章目录第一次作业一、企业收入的多样性二、使用步骤1.引入库2.读入数据总结第一次作业一、企业收入的多样性import pandas as pdimport numpy as np二、使用步骤1.引入库2.读入数据总结
2021-01-01 23:01:29 113
原创 pandas学习:第七天
文章目录连接一、关系型连接1. 连接的基本概念2. 值连接3. 索引连接二、方向连接1. concat2. 序列与表的合并三、类连接操作1. 比较2. 组合连接import numpy as npimport pandas as pd一、关系型连接1. 连接的基本概念两张相关的表按照某一个或某一组键连接起来键 是十分重要的,往往用 on 参数表示在 pandas 中的关系型连接函数 merge 和 join 中提供了 how 参数来代表连接形式,分为左连接 left 、右连接 right
2020-12-29 17:09:19 132
原创 SQL学习:第六天
文章目录综合练习练习一: 各部门工资最高的员工练习二: 换座位练习三: 分数排名练习四:连续出现的数字练习五:树节点练习六:至少有五名直接下属的经理练习七:查询回答率最高的问题综合练习练习一: 各部门工资最高的员工创建Employee 表,包含所有员工信息,每个员工有其对应的 Id, salary 和 department Idcreate table Employee( Id char(4) not null , Name varchar(8) not null, Salary
2020-12-27 20:16:04 142
原创 pandas学习:第五天
文章目录变形一、长宽表的变形1. pivot2. pivot_table3. melt4. wide_to_long二、索引的变形stack与unstack三、其他变形函数1. crosstab2. explode3. get_dummies总结变形一、长宽表的变形1. pivotpivot 是一种典型的长表变宽表的函数就是行列的重新排列,转化成为类似于表格,可以进行多行多列的操作单行单列的pivot操作多行多列的pivot操作2. pivot_tablepandas 中提供了 pi
2020-12-26 15:36:52 189
原创 SQL学习:第五天
文章目录SQL高级处理一、窗口函数二、窗口函数种类1. 专用窗口函数2.聚合函数在窗口函数上的使用三、窗口函数的的应用 - 计算移动平均四、ROLLUP - 计算合计及小计总结SQL高级处理一、窗口函数窗口函数也称为OLAP函数。OLAP 是OnLine AnalyticalProcessing 的简称,意思是对数据库数据进行实时分析处理<窗口函数> OVER ([PARTITION BY <列名>] ORDER BY <排序
2020-12-24 10:50:52 101
原创 pandas学习,第五天
文章目录分组一、分组的模式二、聚合函数1. 内置聚合函数2.agg方法三、变换和过滤四、跨列分组总结分组一、分组的模式要实现分组操作,必须明确三个要素:分组依据 、 数据来源 、 操作及其返回结果df.groupby(分组依据)[数据来源].使用操作分组依据可以是列名,条件列名的话:会根据列名中的种类进行划分,这样用时,列中的非重复数据较少条件:需要时将列中根据条件进行分类后,再使用传入列名只是一种简便的记号,事实上等价于传入的是一个或多个列,最后分组的依据来自于数据来源组合的uni
2020-12-23 21:28:47 116
原创 SQL学习:第四天
文章目录集合运算一、表的加减法1.1 什么是集合运算1.2 表的加法–UNION二、连结 (JOIN)2.1 内连结(INNER JOIN)2.2 自然连结(NATURAL JOIN)总结集合运算一、表的加减法1.1 什么是集合运算在标准 SQL 中, 分别对检索结果使用 UNION, INTERSECT, EXCEPT 来将检索结果进行并,交和差运算, 像UNION,INTERSECT, EXCEPT这种用来进行集合运算的运算符称为集合运算符1.2 表的加法–UNION集合的并集UNION
2020-12-22 19:58:37 88
原创 pandas学习:第四天
文章目录Pandas 学习一、索引1. 表的列索引2. 序列的行索引3.loc索引器4. iloc索引器5. query方法6. 随机抽样总结Pandas 学习import numpy as npimport pandas as pd一、索引1. 表的列索引列索引,一般用[列名]或[列名组成的列表]从Dataframe中取出对应的列,单列为Series,多列则为一个新的Dataframe若要取出单列,且列名中不包含空格,则可以用 .列名 取出,这和 [列名] 是等价的2. 序列的行索引如
2020-12-22 18:37:28 209
原创 SQL学习:第三天
文章目录一、视图1.什么是视图2.视图与表的区别3.为什么会存在视图4 如何创建视图5.如何修改视图结构6.如何更新视图内容7 如何删除视图二、子查询1.什么是子查询2.子查询和视图的关系3.嵌套子查询4.标量子查询5.标量子查询有什么用6 关联子查询总结一、视图1.什么是视图我认为视图是一张虚拟的表,不同于数据表。创建视图时,我们是调用数据表中的数据进行一个新的组合排列,进行一些分析。同时对视图进行操作时并不会影响数据表。相当时生成了一张虚拟表2.视图与表的区别《sql基础教程**第2版》用一句
2020-12-20 15:18:20 333
原创 pandas学习:第二天
pandas前言一、文件的读取和写入1. 文件读取2.数据写入二、基本数据结构1. Series2. DataFrame三、常用基本函数1.汇总函数2. 特征统计函数3. 唯一值函数4. 替换函数5. 排序函数6. apply方法四、窗口对象1.滑窗对象2. 扩张窗口总结前言又是对pandas的学习一天一、文件的读取和写入1. 文件读取pandas 可以读取的文件格式有很多,这里主要介绍读取 csv, excel, txt 文件。df_csv = pd.read_csv("文件位置")df
2020-12-19 20:43:45 280 1
原创 数据可视化学习,第二天
创建一个Figure实例使用Figure实例创建一个或者多个Axes或Subplot实例使用Axes实例的辅助方法来创建primitive
2020-12-18 23:43:06 275 1
原创 SQL学习第二天
基础查询与排序SELECT语句基础1. 选择数据2.算数运算符和比较运算符3.逻辑运算符总结SQL小白的学习日志SELECT语句基础1. 选择数据SELECT<列名>FROM<表名>WHERE<条件表达式>;WHERE 查询你在你需要的条件下限制的数据-- 选取product type列为‘衣服’的记录SELECT product_name, product_type FROM product WHERE product_type = '衣.
2020-12-17 22:25:50 181 1
原创 Pandas学习,第一天
文章目录pandas学习日志一、python 基础1.列表推导式与条件赋值2.匿名函数与map方法3.zip对象与enumerate方法二、Numpy基础1.np数组的构造2.numpy数组的变形与合并3.np数组的切片与索引4.常用函数5. 广播机制6. 向量与矩阵的计算总结pandas学习日志根据Datawhale的学习手册进行pandas的学习一、python 基础1.列表推导式与条件赋值生成一个数字序列data = []def double(x): return 2*x..
2020-12-16 21:13:30 211
原创 Datawhale_learning:初识SQL
一、什么是数据库数据库是将大量的数据保存起来,通过计算机加工而成的,可以通过一些语言来进行高效的访问的数据集合。则这种数据集合被称为数据库。二、SQL学习数据库中数据的储存的表结构类似于excel中的表结构,行与列。在数据库中,行被称为记录,一行即为一条记录;列被称为字段,代表表中储存的数据项目。(感觉有点类似于pandas)俩俩交汇即为单元格,一个单元格只能储存相对应的一条信息。SQL则是为操作数据库而产生的语言。创建/删除数据库、数据库中的表:CREATE:创建DROP:删除LATE
2020-12-15 22:08:33 127
原创 可视化学习的第一天:了解Matplotlib
初识 MatplotlibMatplotlib 是Python 2D绘图库,能够以多种英拷贝格式和跨平台的交互式环境生成出版物质量的图形,可以用来绘制静态,动态,交互式的图表。Matplotlib 可用于Python脚本,我一般使用的是jupyter notebook 。Matplotlib 是Python数据可视化库中的泰斗,它已经成为python中公认的数据可视化工具,我们所熟悉的pandas以及seaborn的绘图接口也都是基于Matplotlib的高级封装接口。Matplotlib的图是其
2020-12-14 18:42:12 137
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人