![](https://img-blog.csdnimg.cn/4cba19ca8e3c43a0b622cf6c17fe06a8.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
文章平均质量分 76
一些常见的、不常见的机器学习算法
Facouse
这个作者很懒,什么都没留下…
展开
-
记录自己第一个Kaggle银牌
从六月以来,一直在华为实习,没抽出时间写一写文章,最近很开心的是刚结束的Kaggle比赛U.S. Patent Phrase to Phrase Matching中取得了银牌,很感谢队友给予的大力帮助,在这里简述一下具体的做法,以作回顾。...原创 2022-07-05 22:32:54 · 996 阅读 · 1 评论 -
通过不同算法给用户打上标签后的业务应用
之前的工作完成了以下几项任务TF-IDF + SVM评论情感提取 标签:是否喜欢这个商品朴素贝叶斯预测性别标签:男或女RFM模型划分用户价值标签:用户的价值等级K-Means用户消费分群标签:用户的消费等级订单数据挖掘标签:用户的消费习惯用户行为标签 + 标签权重标签:用户的购物偏好在完成以上任务后,需要将生成的标签聚合、同步到Hbase、ES、ClickHouse中方便查询。将选出来的人群具体应用于业务逻辑。...原创 2022-05-21 11:05:55 · 361 阅读 · 0 评论 -
基于K-Means算法的用户消费分群与Spark实现
基于K-Means算法的用户消费分群与Spark实现K-Means什么是K-MeansK-Means算法步骤合理选择K值手肘法代码实现K-Means什么是K-Means簇中的点到该簇的均值点的距离都较到其他簇的均值点更近原始数据划分为K类,Means是均值点K-Means的核心是聚集为K个簇,每个簇都有一个中心点(均值点)K-Means算法步骤随机选K个值作为初始聚类中心把其余所有点划分到距离最近的聚类中心所在的聚类中将每个聚类中所有点的均值作为新的聚类中心重复2、3步骤,直到聚类原创 2022-05-21 09:51:24 · 237 阅读 · 0 评论 -
RFM模型与Spark实现
RFM模型与Spark实现RMF模型什么是RMF模型给R、F、M按价值打分基于RFM模型的用户价值划分代码实现RMF模型什么是RMF模型R最近一次消费时间:R越小,客户价值越高F消费频率:F值会受到品类的影响,不适合做跨类目比较M消费金额:最有价值的指标利用以上三个指标将用户分为以下几类给R、F、M按价值打分R打分:最近一次消费距离当前日期越近,分值越高F:消费频率越高,得分越高M:消费金额越高,得分越高得分过后需要给R、F、M一定权重,权重根据业务进行选取基于RFM模型的用原创 2022-05-20 21:46:30 · 441 阅读 · 0 评论 -
搭建用户画像的特征工程 --实际搭建流程
用户画像中的特征工程特征工程的4个步骤特征理解(识别并提取不同等级的数据)数值型特征处理类别型特征处理特征增强(清洗数据)特征构建(生成新特征)特征选择(选取性能最佳特征)文本型数据的特征提取文本型数据的特征值化onehot编码词袋模型TF-IDF特征交叉为什么需要FM算法特征工程的4个步骤特征理解(识别并提取不同等级的数据)数值型特征处理使得尺度不同的数据能够相互比较特征的缩放(归一化/标准化)特征的转换(正则化)类别型特征处理序号编码独热编码二进制编码特征增强(清洗数据)原创 2022-05-19 11:14:23 · 346 阅读 · 0 评论 -
用户画像相关理论基础 -- 看这一篇就够啦(总结篇)
用户画像基础什么是用户画像如何正确理解用户画像用户画像如何生成用户画像的标签维度(分类)标签类型 -- 从标签主题的角度标签类型 -- 从标签生成的角度标签类型 -- 从数据提取的角度标签类型 -- 从数据时效的角度人群的标签组合如何构建高质量的用户画像标签的用户画像的核心,只有真正有效的用户画像标签,才能提升运营效果什么是用户画像通过数据建立描绘用户的标签个性化推荐、广告系统、活动营销、都是基于用户画像的研究如何正确理解用户画像不能把典型用户当做用户画像:典型用户是虚构的,每个真实用户都原创 2022-05-18 21:29:41 · 1435 阅读 · 0 评论 -
通过这篇文章带您了解处理不均衡数据的思想与实践
处理不均衡数据主要思想数据方面算法方面实践主要思想在处理不平衡数据主要从两方面入手:数据集方面、算法本身方面数据方面对数据进行重采样,使原本不均衡的样本变得均衡。最简单的处理不均衡样本集的方法是随机采样。随机过采样:从少数类样本集中随机重复抽取样本(有放回)以得到更多样本随机欠采样:从多数类样本中随机选取较少的样本(有放回或无放回)以得到更多样本上述方法只是简单的重复的复制样本,采取一些方法生成新的样本对于过采样:SMOTE:对少数类样本集SminS_{min}Smin中的每个样本原创 2022-04-17 21:05:35 · 831 阅读 · 0 评论 -
机器学习之关联规则理解
机器学习 -- 关联规则关联规则概述应用场景举例3个最重要的概念(支持度、置信度、提升度)支持度置信度提升度频繁项集Python算法实现关联规则概述1993年,Agrawal等人在首先提出关联规则概念,迄今已经差不多30年了,现今在各种新算法层出不穷,这算得上是老古董了,比很多人的年纪还大,往往是数据挖掘的入门算法,但深入研究的不多,尤其在风控领域,有着极其重要的应用潜力。比如你女朋友,低头玩手指+沉默,那大概率生气了,那这就是你总结出来的规则。啤酒与尿布的例子相信很多人都听说过吧,故事是这样的:在一转载 2022-03-07 15:56:45 · 728 阅读 · 0 评论 -
PCA主成分分析
PCA主成分分析总述原理算法流程使用指南实际效果总述主成分分析(Principal Component Analysis,PCA)是一种多变量统计方法,它是最常用的降维方法之一,通过正交变换将一组可能存在相关性的变量数据转换为一组线性不相关的变量,转换后的变量被称为主成分。PCA主要用于发现数据中的基本结构,及数据中变量之间的关系,也用于其他机器学习的数据预处理。主成分分析主要两种算法:协方差矩阵的特征值分解和数据矩阵的奇异值分解方法。原理首先将给定的数据进行规范化,使得数据每一个变量的平均值为0原创 2022-02-20 17:58:35 · 1290 阅读 · 0 评论