X_gh123456-CSDN博客

原创 task5窗口函数

5.1窗口函数 5.1.1窗口函数概念及基本的使用方法窗口函数也称为OLAP函数。常规的select语句都是对整张表进行查询，而窗口函数可以让我们有选择的去对某一部分数据进行汇总、计算和排序。窗口函数的通用形式： <窗口函数> OVER ([PARTITION BY <列名>] ORDER BY <排序用列名>) []中的内容可以省略。窗口函数最关键的是搞明白关键字PARTITION BY和ORDER BY的作用 PARTITION BY 是用来分组，即选择要看哪个

2022-08-01 11:06:34 303 2

原创 task03：复杂查询方法-视图、子查询、函数等

一、视图 1.1什么是视图视图是一个虚拟的表，不同于直接操作数据表，视图是依据select语句来创建的，所以操作视图时会根据创建视图的SELECT语句生成一张虚拟表，然后在这张虚拟表上做SQL操作。 1.2视图与表有什么区别是否保存了实际的数据。视图并不是数据库真实存储的数据表，它可以看作是一个窗口，通过这个窗口我们可以看到数据库表中真实存在的数据。所以我们要区别视图和数据表的本质，即视图是基于真实表的一张虚拟的表，其数据来源均建立在真实表的基础上。记：视图不是表，视图是虚表，视图依赖于表 1.3为

2021-06-18 22:47:54 358

原创 task02:SQL基础查询与排序

一、select语句基础 1.1从表中选取数据 select语句语法： SELECT <列名>, FROM <表名>; 1.2从表中选取符合条件的数据 where语句语法： SELECT <列名>, …… FROM <表名> WHERE <条件表达式>; 1.3相关法则 1、星号（*）代表全部列的意思。 2、SQL中可以随意使用换行符，不影响语句执行（但不可插入空行）。 3、设定汉语别名时需要使用双引号（"）括起来。 4、在SELECT语句中

2021-06-16 21:21:19 364

原创 mysql基础task01

一、初识数据库数据库是将大量数据保存起来，通过计算机加工而成的可以进行高效访问的数据集合。该数据集合称为数据库（Database，DB）。用来管理数据库的计算机系统称为数据库管理系统（Database Management System，DBMS）。 1.1 DBMS的种类 DBMS 主要通过数据的保存格式（数据库的种类）来进行分类，现阶段主要有以下 5 种类型. 层次数据库（Hierarchical Database，HDB）关系数据库（Relational Database，RDB）这种类型的

2021-06-13 19:11:31 189

原创 Task 5: 模型融合

一、融合方法 1.1简单加权融合: 回归（分类概率）：算术平均融合（Arithmetic mean），几何平均融合（Geometric mean）；分类：投票（Voting) 综合：排序融合(Rank averaging)，log融合 1.2 stacking/blending: 构建多层模型，并利用预测结果再拟合预测。 1.2.1stacking概念理解 Stacking 就是当用初始训练数据学习出若干个基学习器后，将这几个学习器的预测结果作为新的训练集，来学习一个新的学习器。Stacking 的

2021-03-28 19:26:24 354

原创 task4建模与调参

一、逻辑回归 1.1概念逻辑回归主要解决二分类问题，用来表示某件事情发生的可能性。逻辑回归分析仅在线性回归分析的基础上套用了一个逻辑函数，用于预测二值型因变量，其在机器学习领域中有着特殊的地位，并且是计算广告学的核心。 1.2回归于分类的区别回归所预测的目标量的取值是连续的（例如房屋的价格）而分类所预测的目标变量的取值是离散的（例如判断肿瘤大小是否为恶性） 1.3原理在之前的线性回归问题中，我们使用线性函数用来拟合数据。对于分类问题而言，我们要求其输出y的范围应该在(0,1)之间，而线性回

2021-03-25 22:00:33 193

原创 task3特征工程

数据预处理 1、学习到的DataFram.stack() stack()列转行:原本的一个字段的数据放在一’行’上,即：stack()是将原来的列索引转成了最内层的行索引 unstack()行转列:原本的一’行’数据放在一个字段上，即：最内层的行索引还原成了列索引（默认操作为最内层，可用分层级别的编号或名称对其他级别进行unstack）示例： import pandas as pd data1 = { "a":[1,2,3], "b":[4,5,6], "c":[7,8,9] }

2021-03-22 22:14:25 161

原创 task2:数据分析

学习目标 1、熟练数据集，了解数据集，duishu 2、内容介绍载入各种数据科学以及可视化库: 数据科学库 pandas、numpy、scipy；可视化库 matplotlib、seabon；载入数据：载入训练集和测试集；简略观察数据(head()+shape)；数据总览: 通过describe()来熟悉数据的相关统计量通过info()来熟悉数据类型判断数据缺失和异常查看每列的存在nan情况异常值检测了解预测值的分布总体分布概况查看skewness an

2021-03-19 21:25:43 308

原创 Datawhale 心跳信号分类预测零基础入门数据挖掘-Task1 赛题理解

task1：赛题理解学习笔记1、对不懂的包的查询1.1Python的gc模块:1.2Python中的lightgbm模块四级标题五级标题六级标题 1、对不懂的包的查询 1.1Python的gc模块: python对于垃圾回收，采取的是引用计数为主，标记-清除+分代回收为辅的回收策略。对于循环引用的情况，一般的自动垃圾回收方式肯定是无效了，这时候就需要显式地调用一些操作来保证垃圾的回收和内存不泄露。这就要用到python内建的垃圾回收模块gc模块。详细介绍：链接: https://www.cnblogs.c

2021-03-16 19:57:31 313

X_gh123456的博客