自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 GBDT特征构造以及聚类特征构造

GBDT特征构造1.原理GBDT 是一种常用的非线性模型,基于集成学习中 boosting 的思想,由于GBDT本身可以发现多种有区分性的特征以及特征组合,决策树的路径可以直接作为 LR 输入特征使用,省去了人工寻找特征、特征组合的步骤。所以可以将 GBDT 的叶子结点输出,作为LR的输这种通过 GBDT 生成LR特征的方式(GBDT+LR),业界已有实践(Facebook,Kaggle-2014),且效果不错,是非常值得尝试的思路。2.关键点1)采用ensemble决策树而非单颗树一棵树的表达

2020-08-11 09:21:27 442

原创 笛卡尔乘积特征构造以及遗传编程特征构造

笛卡尔乘积特征构造1.原理1)数学原理笛卡尔乘积是指在数学中,两个集合X和Y的笛卡尓积( Cartesian product ),又称直积,表示为 X×Y ,第一个对象是X的成员而第二个对象是 Y 的所有可能有序对的其中一个成员。假设集合 A={a, b} ,集合 B={0, 1, 2} ,则两个集合的笛卡尔积为 {(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)}。2)笛卡尔乘积在特征构造中的作用通过将单独的特征求笛卡尔乘积的方式来组合2个或更多个特

2020-08-11 09:20:54 235

原创 笛卡尔乘积特征构造以及遗传编程特征构造

笛卡尔乘积特征构造1.原理1)数学原理笛卡尔乘积是指在数学中,两个集合X和Y的笛卡尓积( Cartesian product ),又称直积,表示为 X×Y ,第一个对象是X的成员而第二个对象是 Y 的所有可能有序对的其中一个成员。假设集合 A={a, b} ,集合 B={0, 1, 2} ,则两个集合的笛卡尔积为 {(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)}。2)笛卡尔乘积在特征构造中的作用通过将单独的特征求笛卡尔乘积的方式来组合2个或更多个特

2020-08-11 09:19:41 289

原创 时间特征构造以及时序特征构造

时间特征构造对于时间型数据来说,即可以把它转换成连续值,也可以转换成离散值。1.连续值时间特征持续时间(单页浏览时长);间隔时间;上次购买/点击离现在的时长;产品上线到现在经过的时长;2.离散值时间特征1)时间特征拆解年;月;日;时;分;数;一天中的第几分钟;星期几;一年中的第几天;一年中的第几个周;一天中哪个时间段:凌晨、早晨、上午、中午、下午、傍晚、晚上、深夜;一年中的哪个季度;程序实现import pandas as pd# 构造时

2020-08-11 09:19:19 799

原创 特征筛选的原理与实现

特征工程又包含了Feature Selection(特征选择)、Feature Extraction(特征提取)和Feature construction(特征构造)等子问题,本章内容主要讨论特征选择相关的方法及实现。在实际项目中,我们可能会有大量的特征可使用,有的特征携带的信息丰富,有的特征携带的信息有重叠,有的特征则属于无关特征,如果所有特征不经筛选地全部作为训练特征,经常会出现维度灾难问题,甚至会降低模型的准确性。因此,我们需要进行特征筛选,排除无效/冗余的特征,把有用的特征挑选出来作为模型的训练数

2020-08-11 09:18:30 695

原创 数据预处理

数值型特征无量纲化我们的数据一般都是有单位的,比如身高的单位有m,cm,这个无量纲化并不是说把m变成cm,而是说,无论是m还是cm,最后都会变成1,也就是没有了单位。无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和归一化。数据标准化的原因:某些算法要求样本具有零均值和单位方差;需要消除样本不同属性具有不同量级时的影响。归一化有可能提高精度;数量级的差异将导致量级较大的属性占据主导地位,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要);数量级的差

2020-08-11 09:17:15 224 1

原创 特征预处理

数值型特征无量纲化我们的数据一般都是有单位的,比如身高的单位有m,cm,这个无量纲化并不是说把m变成cm,而是说,无论是m还是cm,最后都会变成1,也就是没有了单位。无量纲化使不同规格的数据转换到同一规格。常见的无量纲化方法有标准化和归一化。数据标准化的原因:某些算法要求样本具有零均值和单位方差;需要消除样本不同属性具有不同量级时的影响。归一化有可能提高精度;数量级的差异将导致量级较大的属性占据主导地位,从而与实际情况相悖(比如这时实际情况是值域范围小的特征更重要);数量级的差

2020-08-11 09:14:35 1199 1

原创 逻辑错误清洗

逻辑错误清洗逻辑错误除了以下列举的情况,还有很多未列举的情况,在实际操作中要酌情处理。另外,这一步骤在之后的数据分析建模过程中有可能重复,因为即使问题很简单,也并非所有问题都能够一次找出,我们能做的是使用工具和方法,尽量减少问题出现的可能性,使分析过程更为高效。1.数据重复清洗1)存在各个特征值完全相同的两条/多条数据此时直接删除并只保留其中一条数据。df.drop_duplicates()2)数据不完全相同,但从业务角度看待数据是同一个数据如页面埋点时,进入页面和退出页面都会上报一次数

2020-08-11 09:12:46 2324

原创 格式内容清洗

格式内容清洗1.格式内容清洗产生的原因数据是由人工收集或用户填写而来,格式内容可能存在问题不同版本的程序产生的内容或格式不一致不同数据源采集的数据内容和格式定义不一致2.时间、日期格式不一致清洗根据实际情况,把时间/日期转换成统一的表示方式日期格式不一致:2019-0-20’、’20190720’、’2019/07/20’、’20/07/2019’;时间戳单位不一致,有的用秒,有的用毫秒无效时间表示,时间戳使用0表示,结束时间戳使用FFFF表示3.数值格式不一根据实际情况,把数

2020-08-11 09:11:53 450

原创 格式内容清洗

格式内容清洗1.格式内容清洗产生的原因数据是由人工收集或用户填写而来,格式内容可能存在问题不同版本的程序产生的内容或格式不一致不同数据源采集的数据内容和格式定义不一致2.时间、日期格式不一致清洗根据实际情况,把时间/日期转换成统一的表示方式日期格式不一致:2019-0-20’、’20190720’、’2019/07/20’、’20/07/2019’;时间戳单位不一致,有的用秒,有的用毫秒无效时间表示,时间戳使用0表示,结束时间戳使用FFFF表示3.数值格式不一根据实际情况,把数

2020-08-11 09:09:00 1319

原创 Task6 基于深度学习的文本分类3

Task6 基于深度学习的文本分类3基于深度学习的文本分类学习目标了解Transformer的原理和基于预训练语言模型(Bert)的词表示学会Bert的使用,具体包括pretrain和finetune文本表示方法Part4Transformer原理Transformer是在"Attention is All You Need"中提出的,模型的编码部分是一组编码器的堆叠(论文中依次堆叠六个编码器),模型的解码部分是由相同数量的解码器的堆叠。我们重点关注编码部分。他们结构完全相同,但是并不

2020-07-29 10:00:41 151

原创 Task5 基于深度学习的文本分类2

Task5 基于深度学习的文本分类2在上一章节,我们通过FastText快速实现了基于深度学习的文本分类模型,但是这个模型并不是最优的。在本章我们将继续深入。基于深度学习的文本分类本章将继续学习基于深度学习的文本分类。学习目标学习Word2Vec的使用和基础原理学习使用TextCNN、TextRNN进行文本表示学习使用HAN网络结构完成文本分类文本表示方法 Part3词向量本节通过word2vec学习词向量。word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。对于每

2020-07-29 09:38:13 103

原创 Task4 基于深度学习的文本分类1

Task4 基于深度学习的文本分类1在上一章节,我们使用传统机器学习算法来解决了文本分类问题,从本章开始我们将尝试使用深度学习方法。基于深度学习的文本分类与传统机器学习不同,深度学习既提供特征提取功能,也可以完成分类的功能。从本章开始我们将学习如何使用深度学习来完成文本表示。学习目标学习FastText的使用和基础原理学会使用验证集进行调参文本表示方法 Part2现有文本表示方法的缺陷在上一章节,我们介绍几种文本表示方法:One-hotBag of WordsN-gramTF

2020-07-29 09:32:45 103

原创 Task3 基于机器学习的文本分类

Task3 基于机器学习的文本分类在上一章节,我们对赛题的数据进行了读取,并在末尾给出了两个小作业。如果你顺利完成了作业,那么你基本上对Python也比较熟悉了。在本章我们将使用传统机器学习算法来完成新闻分类的过程,将会结束到赛题的核心知识点。基于机器学习的文本分类在本章我们将开始使用机器学习模型来解决文本分类。机器学习发展比较广,且包括多个分支,本章侧重使用传统机器学习,从下一章开始是基于深度学习的文本分类。学习目标学会TF-IDF的原理和使用使用sklearn的机器学习模型完成文本分类

2020-07-25 17:02:12 91

原创 Task2 数据读取与数据分析

Task2 数据读取与数据分析在上一章节,我们给大家简单介绍了赛题的内容和几种解决方案。从本章开始我们将会逐渐带着大家使用思路1到思路4来完成本次赛题。在讲解工具使用的同时,我们还会讲解一些算法的原理和相关知识点,并会给出一定的参考文献供大家深入学习。数据读取与数据分析本章主要内容为数据读取和数据分析,具体使用Pandas库完成数据读取操作,并对赛题数据进行分析构成。学习目标学习使用Pandas读取赛题数据分析赛题数据的分布规律数据读取赛题数据虽然是文本数据,每个新闻是不定长的,但任然使

2020-07-22 17:25:49 118

原创 赛题理解

Task1 赛题理解本章将会对新闻文本分类进行赛题讲解,对赛题数据进行说明,并给出解题思路。赛题理解赛题名称:零基础入门NLP之新闻文本分类赛题目标:通过这道赛题可以引导大家走入自然语言处理的世界,带大家接触NLP的预处理、模型构建和模型训练等知识点。赛题任务:赛题以自然语言处理为背景,要求选手对新闻文本进行分类,这是一个典型的字符识别问题。学习目标理解赛题背景与赛题数据完成赛题报名和数据下载,理解赛题的解题思路赛题数据赛题以匿名处理后的新闻数据为赛题数据,数据集报名后可见并可下

2020-07-21 17:17:33 281

原创 异常值清洗

异常值清洗异常值是数据分布的常态,处于特定分布区域或范围之外的数据通常被定义为异常或噪声。异常分为两种:“伪异常”,由于特定的业务运营动作产生,是正常反应业务的状态,而不是数据本身的异常;“真异常”,不是由于特定的业务运营动作产生,而是数据本身分布异常,即离群点。1.异常值检查方法1)基于统计分析异常检测问题就在统计学领域里得到广泛研究,通常用户用某个统计分布对数据点进行建模,再以假定的模...

2020-04-26 15:15:44 488

原创 缺失值清洗

缺失值清洗没有高质量的数据,就没有高质量的数据挖掘结果,数据值缺失是数据分析中经常遇到的问题之一。1.造成缺失值的原因信息暂时无法获取;如商品售后评价、双十一的退货商品数量和价格等具有滞后效应。信息被遗漏;可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏,也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失。这个在很多公司...

2020-04-26 14:40:54 199

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除