自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 长文本匹配 - Semantic Text Matching for Long-Form Documents(SMASH RNN) 阅读笔记

研究领域:Semantic text matching on long document to long documentPDF。

2024-04-06 17:22:32 450

原创 长文本匹配 - Supervised Contrastive Learning for Interpretable Long-Form Document Matching(CoLDE) 阅读笔记

研究领域:semantic text matching for long-form documentspdf项目代码。

2024-04-06 15:55:58 605

原创 “深度学习”小组学习的Task02-预备知识

本文章为Datawhale“深度学习”小组学习的Task02-预备知识-学习日志添加链接描述提示:这里对文章进行总结:例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

2023-03-21 00:03:10 174

原创 “SQL编程语言”小组学习的Task05

“SQL编程语言”小组学习的Task05

2022-10-23 22:03:05 88

原创 “SQL编程语言”小组学习的Task02-学习日志

“SQL编程语言”小组学习的Task02-学习日志

2022-10-14 00:02:35 186

原创 “SQL编程语言”小组学习的Task01-学习日志

“SQL编程语言”小组学习的Task01-学习日志

2022-10-12 00:31:59 184

原创 “GitModel统计分析”学习的Task02EDA-学习日志

本文章为天池“GitModel统计分析”学习的Task02EDA-学习日志。

2022-07-17 00:23:57 194

原创 “GitModel统计分析”学习的Task01动手学Pandas-学习日志

本文章为天池“GitModel统计分析”学习的Task01动手学Pandas-学习日志

2022-07-14 00:09:15 89

原创 “SQL编程语言”小组学习的Task05

文章目录前言一、窗口函数1.概念及基本使用方法二、使用步骤1.引入库2.读入数据总结前言本文章为天池“SQL编程语言”小组学习的Task05-学习日志,主要学习内容为窗口函数,GROUPING运算符,存储过程和函数,预处理声明学习地址:添加链接描述一、窗口函数1.概念及基本使用方法示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。代码如下(示例):import numpy as npimport pandas as pdimport matplo

2022-05-27 20:00:02 63

原创 “SQL编程语言”小组学习的Task04-学习日志

文章目录前言一、表的加减法1.加法--UNION1.1UNION基本用法1.2 UNION 与 OR 谓词1.3包含重复行的集合运算 UNION ALL2.交运算INTERSECT,减法运算符 EXCEPT(MySQL 8.0不支持)2.1 EXCEPT 与 NOT2.2 INTERSECT 与 AND(等价)3.对称差二、连结(JOIN)1.内连结(INNER JOIN)1.1 结合 WHERE 子句使用内连结1.2 结合 GROUP BY 子句使用内连结2.自连结(SELF JOIN)3.自然连结(NA

2022-05-26 01:04:07 167

原创 “SQL编程语言”小组学习的Task03

文章目录前言一、视图1.基础知识2.引入库二、子查询1.引入库2.读入数据三、函数计算四、谓词五、CASE 表达式总结前言本文章为天池“SQL编程语言”小组学习的Task03-学习日志,需要了解视图并对视图实现创立修改等操作,学习并实现子查询,学习了解函数计算,谓词以及CASE 表达式。提示:以下是本篇文章正文内容,下面案例可供参考一、视图1.基础知识2.引入库二、子查询1.引入库代码如下(示例):import numpy as npimport pandas as pdim.

2022-05-23 01:10:37 74

原创 “SQL编程语言”小组学习的Task02-学习日志

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、SELECT相关语句基础二、课后练习题前言本文章为天池“SQL编程语言”小组学习的Task01-学习日志,需要练习MYSQL的SELECT相关语法。学习地址:一、SELECT相关语句基础二、课后练习题编写一条SQL语句,从 product(商品) 表中选取出“登记日期(regist_date)在2009年4月28日之后”的商品,查询结果要包含 product name 和 regist_date 两列。.

2022-05-19 23:14:02 60

原创 “SQL编程语言”小组学习的Task01-学习日志

文章目录前言一、MYSQL下载及环境搭建中出现的问题二、初识数据库1.数据库定义及分类2.RDBMS的常见系统结构(客户端 / 服务器类型(C/S类型))三、初识SQL前言本文章为天池“SQL编程语言”小组学习的Task01-学习日志,需要实现MYSQL的下载安装以及环境搭建,并初步了解数据库。学习地址:添加链接描述一、MYSQL下载及环境搭建中出现的问题Q1:MySQL安装时出现端口异常,提示The specified port already in useA1:(1)通过win+r.

2022-05-17 20:24:04 142

原创 “深入理解计算机系统”小组学习的Task01-学习日志

文章目录前言一、信息储存1.虚拟地址空间1.1.虚拟地址空间1.2 字数据大小1.3 寻址和字节顺序1.4 字符串的表示1.5 布尔运算1.6 C 语言中的位级运算二、数值表示与运算1.整数1.1.表示与编码1.1.1. 有符号的二进制数的表示1.1.2. 原码1.1.3. 反码1.1.4. 补码1.1.5. 有符号数和无符号数相互转换1.1.6. 扩展数字位表示1.2.运算1.2.1.无符号加法1.2.2.两种乘法(以乘2的整数倍为例)1.2.1.两种除法(以除以2的整数倍为例)2.浮点数..

2021-12-17 19:28:09 315

原创 “深入理解计算机系统”小组学习的Task01-学习日志

文章目录前言一、编译系统1.工作流程2.流程步骤定义二、硬件架构1.硬件架构组成1.1硬件架构图1.2.CPU 架构1.2.1.CPU 定义1.2.2.CPU内部结构1.3.内存1.4.总线1.5.输入输出设备2.程序在架构中的执行流程2.1.流程步骤2.2.流程步骤图3.设备容量4.存储设备的层次结构三、操作系统管理硬件1.操作系统的作用总结前言本文章为天池“深入理解计算机系统”小组学习的Task01-学习日志,旨在初步了解程序执行过程中所涉及的编译系统、硬件架构、操作系统管理等。一...

2021-12-13 16:13:34 1649

原创 “Python数据分析可视化”小组学习的Task02-学习日志

文章目录前言前言本文章为天池“数据可视化”小组学习的Task02-学习日志,是最关键的一个步骤,旨在初步了解Matplotlib的各种图形的绘制以及对象容器。学习网址添加链接描述:添加链接描述思维导图待整理...

2021-09-19 22:24:10 95

原创 “Python数据分析可视化”小组学习的Task01-学习日志

文章目录前言一、matplotlib是什么?二、Figure的组成三、绘制一张简单的图1.引入库2.绘图2.1通过pyplot.subplots绘图2.2 通过plt.plot绘图四. 两种绘图接口1.OO模式(object-oriented style)2.依赖pyplot接口前言本文章为天池“数据可视化”小组学习的Task01-学习日志,旨在初步了解Matplotlib,对其基础绘图有一定的了解,以及初步了解matplotlib基本原理。学习网址添加链接描述:添加链接描述一、matp..

2021-09-14 21:24:47 189

原创 “Python数据化会员运营分析”小组学习的Task02-学习日志

文章目录前言一、数据信息简介1.数据信息2.实验目标二、导入库和数据1.引入库2.读入数据三、数据清洗1.主要步骤2.查阅数据3.缺失值处理四、汇总数据1.汇总信息2.将日期间隔转化成文字3.按会员ID做汇总4.重命名列名五、确定RFM划分区间&计算RFM因子权重1.查看数据分布2.定义区间边界3计算RFM因子权重六、RFM分箱1.RFM分箱得分2.方法一:加权计分3.方法二:RFM组合计分4.保存RFM结果到Excel七、对分箱后EXCLE透视前言本文章为天池“Python数据化会员运营..

2021-08-29 23:07:16 263

原创 “Python数据化会员运营分析”小组学习的Task01-学习日志

文章目录前言一、会员数据运营理论知识思维导图——大纲二、会员常见关注问题及会员制本质1.会员制本质2.会员常见关注问题三、常见会员种类四、会员运营的核心任务1.流量建设2.用户维护五、会员数据运营痛点六、会员数据运营常见指标1.整体指标2.营销指标3.活跃度指标4.价值指标5.终生价值指标6.异动指标七、会员数据运营应用场景1.会员营销2.会员关怀八、会员数据运营分析模型1.会员细分模型2.RFM价值度模型(固定时间点模型)3.用户流失预测模型4.会员特征模型5.营销响应模型前言本文章为天池“Py..

2021-08-22 22:22:25 137

原创 “动手学数据分析”小组学习的Task05-学习日志

文章目录前言一、前期操作1.引入库2.引入数据及调整绘图参数二、建立模型1.基本步骤2.切割训练集和测试集2.1.处理步骤2.2.划分数据集的方法2.3.分层抽样的特点2.4.泰坦尼克幸存数据分割——留出法划分2.模型创建2.1.常见模型2.1.创建逻辑回归模型2.2.随机森林分类模型2.3.创建逻辑回归模型2.4.线性分类模型3.模型评估3.1.背景简介3.2.交叉验证(10折交叉验证来评估)3.2.混淆矩阵3.3.ROC曲线前言本文章为天池“动手学数据分析”小组学习的Task05-学习日志,旨..

2021-07-22 23:00:23 126

原创 “动手学数据分析”小组学习的Task04-学习日志

文章目录前言一、python常用可视化图形及常用库1.Matplotlib1.1.散点图1.2.直方图1.3.散点图2.Seaborn二、可视化示例操作1.引入库2.计算男女中生存人数分布情况——柱状3.男女中生存人与死亡人数的比例图——柱状4.不同票价的人生存和死亡人数分布情况——排序后5.不同票价的人生存和死亡人数分布情况——无序6.不同仓位等级的人生存和死亡人员的分布情况7.不同年龄的人生存与死亡人数分布情况8.不同仓位等级的人年龄分布情况——折现前言本文章为天池“动手学数据分析”小组学习的..

2021-07-19 21:33:32 246

原创 “动手学数据分析”小组学习的Task03-学习日志

文章目录前言一、数据合并1.导入数据2.数据合并:方法一——通过concat3.数据合并:方法二——通过join&append4.数据合并:方法三——通过merge&append5.merge、join以及concat三种方法比较6.将数据变为Series类型的数据二、数据聚合与运算1.GroupBy机制:2.操作实例2.1.计算男性与女性的平均票价2.2.计算男女的存活人数2.3.客舱不同等级的存活人数2.4.计算不同等级的票中的不同年龄的船票花费的平均值(两个分类)2.5.计算得出不..

2021-07-17 20:45:11 97

原创 “动手学数据分析”小组学习的Task02-学习日志

文章目录前言一、缺失值处理?1.查看缺失值1.1.通过info()函数查看缺失情况1.2.通过isnull().sum()函数查看缺失情况2.缺失值处理2.1.缺失值填充的四种方法1.2.各种方法比较1.3.对空值删除处理3.重复值处理二、特征观察与处理1.数值型变量——分箱1.1.平均分箱成n个年龄段1.2.按一定组距分段1.3.按分位数分段2.文本变量——转换1.1.查看变量名种类1.1.1value_counts1.1.2 unique1.2.将类别文本转换为数字型1.1.1 replace1.1..

2021-07-16 00:18:01 201

原创 “动手学数据分析”小组学习的Task01-学习日志

文章目录前言一、数据载入及初步观察二、使用步骤1.引入库2.读入数据总结前言本文章为天池“动手学数据分析”小组学习的Task01-学习日志,旨在了解数据载入及初步观察,进一步探索性的数据分析,以及补充一些pandas基础知识。学习网址添加链接描述:添加链接描述一、数据载入及初步观察示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as p..

2021-07-13 21:26:33 163

原创 “数据挖掘实战 - 异常检测”学习赛的Task05-学习日志

文章目录前言一、高维数据异常检测简介二、Feature Bagging1. 选择基本检测器2. 分数标准化和组合方法三、孤立森林1.简介2.步骤前言本文章为天池“数据挖掘实战 - 异常检测”学习赛的Task05-学习日志,旨在对高维数据异常检测的方法有进一步的了解。学习地址: 添加链接描述一、高维数据异常检测简介>>高维数据异常检测常见问题:数据空间会随维度的增多而增大,而数据也随之变得稀疏,所以高维度的的稀疏数据不一定为异常数据;基于邻近度的方法是在所有维度使用距离函..

2021-05-23 23:05:39 146

原创 “数据挖掘实战 - 异常检测”学习赛的Task04-学习日志

文章目录前言一、基于距离的度量1.概述2.基于单元的方法3.基于索引的方法二、基于密度的度量1.概述2.密度度量的演变步骤前言本文章为天池“数据挖掘实战 - 异常检测”学习赛的Task04-学习日志,旨在对如何通过相似度的方法对异常值进行处理有进一步的了解。学习地址:[添加链接描述](https://github.com/datawhalechina/team-learning-data-mining/blob/master/AnomalyDetection/%E5%9B%9B%E3%80%8..

2021-05-20 23:13:03 107

原创 “数据挖掘实战 - 异常检测”学习赛的Task03-学习日志

文章目录前言一、概论学习思维导图二、线性模型的背景介绍1.相关定义2.线性回归假设3.线性回归异常值原理4.常用方法三、基于自变量与因变量的线性回归1.最小二乘法(以一元回归为例)1.1 线性回归基本假设1.2 最小二乘法2.梯度下降法2.1数据集2.2 损失函数2.3 优化算法 - 随机梯度下降落四、基于异常检测的线性回1.主成分分析1.1原理推导1.2主成分分析的主要性质1.3 归一化问题五、回归分析的局限性前言本文章为天池“数据挖掘实战 - 异常检测”学习赛的Task03-学习日志,旨在..

2021-05-17 11:00:34 169

原创 “数据挖掘实战 - 异常检测”学习赛的Task02-学习日志

文章目录一、概论学习思维导图二、统计方法处理异常简介三、参数方法1. 一元函数检测异常点——通常使用正态分布2.多元异常点检测3.混合参数分布四、非参数方法1.图形检测——常用直方图2.基于角度方法五、HBOS一、概论学习思维导图二、统计方法处理异常简介 >>基本假设:假定正常数据均服从一个统计模型,而偏离模型的点为异常点。 >>检测思路:通过对已知数据集进行机器学习模拟一个模型,识别该模型低概率区域中的对象,把它们作为异常点。三、参数方法 >>定义..

2021-05-14 22:22:42 189

原创 “数据挖掘实战 - 异常检测”学习赛的Task01-学习日志

文章目录前言一、概论学习思维导图二、异常检测简介1.定义2.异常类别3.任务分类4.运用场景5.处理难点三、异常检测方法1.基础方法1.1. 基于统计学的方法1.2. 线性模型1.3. 基于邻近度的方法2.集成方法2.1. 孤立森林2.1. 机器学习前言本文章为天池“数据挖掘实战 - 异常检测”学习赛的Task01-学习日志,旨在对数据挖掘比赛有初步了解,了解异常检测的定义、类别、任务分类、运用场景、处理过程的难点及常用检测方法。学习链接:添加链接描述一、概论学习思维导图二、异常检测..

2021-05-11 20:29:17 406

原创 “零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task05-学习日志

文章目录前言一、学习思维导图二、回归\分类概率-融合1.简单加权平均,结果直接融合2.Stacking融合(回归)三、分类模型融合1.Voting投票机制2.Stacking\Blending融合待改前言本文章为天池“零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task05-学习日志,旨在了解预测模型的融合,并根据二手车数据特点选择融合方式进行融合处理。学习网址添加链接描述:添加链接描述一、学习思维导图二、回归\分类概率-融合1.简单加权平均,结果直接融合步骤:(1)..

2021-04-24 23:23:57 178

原创 “零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task04-学习日志

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、建模调参学习思维导图二、常用回归模型1.决策树模型:2.GBDT模型:3.XGBoost模型:4.LightGBM模型:5.线性回归模型:5.1 基本假设5.2 最小二乘法5.3 以二手车为例求线性模型三、模型性能检验1. 五折交叉验证2. 模拟真实业务情况3. 绘制学习率曲线与验证曲线四、多种模型对比1. 线性模型 VS 嵌入式特征2. 非线性模型比较,代码如下:五、模型调参1. 贪心调参2. Grid Search 调参

2021-04-22 23:40:02 162

原创 “零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task03-学习日志

文章目录前言一、特征工程学习思维导图二、特征工程是什么三、特征使用和获取1.明确目标,寻找影响因素2.特征可用性评估3.特征的选取与构造4.特征的储存四、特征处理1.特征的清洗2.预处理2.1针对单个特征值2.1.1 无量纲化-归一化/标准化2.1.2 Dummy coding(哑变量)2.1.3 缺失值处理2.1.3.1 缺失类型2.1.3.2 缺失处理方法2.1.4 异常值处理2.2 针对多个特征2.2.1降维2.2.2数据分桶2.2.3 特征筛选2.2.3.1 过滤式2.2.3.2 包裹式2.2.3.

2021-04-19 22:11:32 328

原创 “零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task02-学习日志

文章目录前言一、EDA学习思维导图二、EDA是什么?二、EDA分析步骤1.载入数据库1.载入数据库总结前言本文章为天池“零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task02-学习日志,旨在了解EDA的分析步骤,通过分析数据,对数据清洗,了解变量间的相互关系以及变量与预测值之间的存在关系,并通过数据处理和特征工程提高预测的可靠性。一、EDA学习思维导图二、EDA是什么?EDA定义:探索性数据分析(Exploratory Data Analysis,简称EDA),是一种通过..

2021-04-16 20:40:57 368 1

原创 “零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task01-学习日志

“二手车交易价格预测”学习赛的Task01-学习日志前言一、赛题分析流程二、比赛数据1.比赛数据简介2.比赛数据概况3. 本次预测评价指标三、赛题分析1.回归问题2.评价指标3.所需数据库前言本文章为天池“零基础入门数据挖掘 - 二手车交易价格预测”学习赛的Task01-学习日志,旨在对数据挖掘比赛有初步了解,具体目标如下:理论:理解数据分析目标,评分体系,学习赛题分析实践:学习在比赛系统提交结果比赛地址:link学习资料地址: link一、赛题分析流程1. 分析问题类型,深入了解数

2021-04-13 10:15:38 214 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除