
特征工程 FeatureEngineering
是杰夫呀
记录学习的点点滴滴。
展开
-
抖音为例:拆解数据分析常见的业务指标
作者刚入门的时候其实还不知道数据分析是干嘛的,后来看到了这些数据指标的含义,就知道数据分析师就是从数据当中找出有用的指标出来进行分析。1.1 用户数据指标用户数据 [性别 年龄 地区]行为数据 [点击某个菜单的次数 分享量 收藏数]产品数据 [文章标题 日期 阅读量]1.2 行为数据指标1.3 产品数...原创 2020-03-18 20:37:27 · 3590 阅读 · 0 评论 -
大数据分析工程师入门 ◀ 指标体系
理解了上篇文章讲的数据方法后,那么接下来就是把分析方法应用到实际工作中。上篇文章中,我们提到数据分析师工作中很重要的一部分,就是构建一个相对完整的指标体系,因为这样才能直接反应出公司业务的发展现状,才能对业务发展做出一个相对客观的评估。因此,本文我们将来探讨下,如何构建指标体系。1.为什么要讲指标体系?有可能在每个公司的叫法不同,有些公司可能就叫做报表系统,或者BI系统。不过,我这里想...原创 2019-10-20 00:06:43 · 296 阅读 · 0 评论 -
特征提取之文本特征:one-hot和 TF-IDF方法(sklearn实现)
目录1. one-hot1.1 one-hot 编码1.2 one-hot 在提取文本特征上的应用优缺点分析sklearn 实现 one hot encode2. TF-IDF优缺点分析sklearn 实现 tfidfone-hot和TF-IDF 是目前最为常见的用于提取文本特征的方法,本文主要介绍两种方法的思想以及优缺点。1. one-hot1.1 o...原创 2019-08-08 00:42:11 · 3894 阅读 · 0 评论 -
特征工程三部曲 — (1)特征选择
特征质量的好坏,直接影响到最终的模型结果。构建特征是一个很大的工程,总体来讲包括 “特征选择”、“特征表达”和“特征评估”3 个部分。我们也按这 3 个部分,并结合自己的具体实践,用 3 篇文章来和大家聊一下特征工程的相关问题。本篇文章,我们讨论一下特征选择。特征选择指的是,在全部的特征中,挑选出对最终的机器学习任务有用的特征。整体来讲,从特征选择的过程中有没有模型的参与,可以将特征选...原创 2019-08-28 13:02:42 · 673 阅读 · 0 评论 -
特征工程三部曲 — (2)特征编码
在上一篇中,我们解决了从哪些维度去刻画一个对象的问题。在本篇中我们聊一下特征表达(或者说特征编码)的问题,即从这些选定的维度,如何去刻画特定的对象。01特征表达要考虑哪些方面?从一个完整的机器学习任务来看,在选择完特征之后,特征表达的任务就是要将一个个的样本抽象成数值向量,供机器学习模型使用。因此,特征表达就要兼顾特征属性和模型需求这两个方面。特征属性特征按...原创 2019-08-28 13:22:16 · 1348 阅读 · 0 评论 -
数据分析常用的100个指标和术语
本文按照以下三类进行汇总。1、互联网常用名词解释2、统计学名词解释3、数据分析名词解释一、互联网常用名词解释1、PV(Page View)页面浏览量指某段时间内访问网站或某一页面的用户的总数量。通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要指标。PV可重复累计,以用户访问网站作为统计依据,用户每刷新一次即重新计算一次。2、UV(Uniq...原创 2019-09-05 18:41:44 · 12462 阅读 · 2 评论 -
用户画像该如何正确分析
用户画像分析的错误姿势1.限于数据,动不敢动。一提用户画像,很多人脑海里立刻蹦出了性别,年龄,地域,爱好等基础信息字段,然后大呼:我们好像没这个数据,于是放弃分析了。可实际想想,知道男性占比真的有那么大意义?知道男性占比65%还是60%真的对业务有帮助?不一定的,贴用户标签有很多方式,不要限于一些难采集的基础信息。2.罗列数据,没有思路。很多人一听到用户画像分析,本能的...原创 2019-09-05 19:28:56 · 1955 阅读 · 1 评论