Facouse-CSDN博客

原创记录自己第一个Kaggle银牌

从六月以来，一直在华为实习，没抽出时间写一写文章，最近很开心的是刚结束的Kaggle比赛U.S. Patent Phrase to Phrase Matching中取得了银牌，很感谢队友给予的大力帮助，在这里简述一下具体的做法，以作回顾。...

2022-07-05 22:32:54 1257

原创 Python一些面试题总结

python面试的一些常问问题，做一些整理，帮助后期回顾

2022-06-10 09:34:59 277

ClickHouse和ES在人群圈选上的对比ES标签存储的痛点ClickHouse替代ES标签存储ES人群圈选ClickHouse人群圈选ClickHouse标签存储和人群圈选的优势ClickHouse集成Bitmap什么是BitmapBitmap位运算Bitmap缺点ES标签存储的痛点标签导入到ES的时间过长，需要等待各种数据准备就绪，才能关联查询Mapping在建好之后不能更改字段类型新增或修改标签，不能够实时进行ES的DSL语法对用户不太友好ClickHouse替代ES标签存储相同

2022-05-22 16:31:52 1563

原创通过不同算法给用户打上标签后的业务应用

之前的工作完成了以下几项任务TF-IDF + SVM评论情感提取标签：是否喜欢这个商品朴素贝叶斯预测性别标签：男或女RFM模型划分用户价值标签：用户的价值等级K-Means用户消费分群标签：用户的消费等级订单数据挖掘标签：用户的消费习惯用户行为标签 + 标签权重标签：用户的购物偏好在完成以上任务后，需要将生成的标签聚合、同步到Hbase、ES、ClickHouse中方便查询。将选出来的人群具体应用于业务逻辑。...

2022-05-21 11:05:55 438

原创基于K-Means算法的用户消费分群与Spark实现

基于K-Means算法的用户消费分群与Spark实现K-Means什么是K-MeansK-Means算法步骤合理选择K值手肘法代码实现K-Means什么是K-Means簇中的点到该簇的均值点的距离都较到其他簇的均值点更近原始数据划分为K类，Means是均值点K-Means的核心是聚集为K个簇，每个簇都有一个中心点（均值点）K-Means算法步骤随机选K个值作为初始聚类中心把其余所有点划分到距离最近的聚类中心所在的聚类中将每个聚类中所有点的均值作为新的聚类中心重复2、3步骤，直到聚类

2022-05-21 09:51:24 312

原创 RFM模型与Spark实现

RFM模型与Spark实现RMF模型什么是RMF模型给R、F、M按价值打分基于RFM模型的用户价值划分代码实现RMF模型什么是RMF模型R最近一次消费时间：R越小，客户价值越高F消费频率：F值会受到品类的影响，不适合做跨类目比较M消费金额：最有价值的指标利用以上三个指标将用户分为以下几类给R、F、M按价值打分R打分：最近一次消费距离当前日期越近，分值越高F：消费频率越高，得分越高M：消费金额越高，得分越高得分过后需要给R、F、M一定权重，权重根据业务进行选取基于RFM模型的用

2022-05-20 21:46:30 584

原创搭建用户画像的特征工程 --实际搭建流程

用户画像中的特征工程特征工程的4个步骤特征理解（识别并提取不同等级的数据）数值型特征处理类别型特征处理特征增强（清洗数据）特征构建（生成新特征）特征选择（选取性能最佳特征）文本型数据的特征提取文本型数据的特征值化onehot编码词袋模型TF-IDF特征交叉为什么需要FM算法特征工程的4个步骤特征理解（识别并提取不同等级的数据）数值型特征处理使得尺度不同的数据能够相互比较特征的缩放（归一化/标准化）特征的转换（正则化）类别型特征处理序号编码独热编码二进制编码特征增强（清洗数据）

2022-05-19 11:14:23 548

原创用户画像相关理论基础 -- 看这一篇就够啦（总结篇）

用户画像基础什么是用户画像如何正确理解用户画像用户画像如何生成用户画像的标签维度（分类）标签类型 -- 从标签主题的角度标签类型 -- 从标签生成的角度标签类型 -- 从数据提取的角度标签类型 -- 从数据时效的角度人群的标签组合如何构建高质量的用户画像标签的用户画像的核心，只有真正有效的用户画像标签，才能提升运营效果什么是用户画像通过数据建立描绘用户的标签个性化推荐、广告系统、活动营销、都是基于用户画像的研究如何正确理解用户画像不能把典型用户当做用户画像：典型用户是虚构的，每个真实用户都

2022-05-18 21:29:41 2021

原创初始DMP项目 -- 用户画像

DMP项目DMP什么是DMPDMP行业图谱DMP达到什么样的效果DMP具备的能力DMP什么是DMPDMP(Data Management Platform)数据管理平台可以把DMP看成一个数据池子接受来自各方的数据，然后融合、处理、优化，最后使用这些数据DMP = 数据 + 管理 + 平台集数据采集，存储，处理，分析，输出于一体DMP行业图谱DMP达到什么样的效果用户分析与广告定向投放：广告精准投放、提供丰富标签服务广告效果分析：各渠道的获客数量、各渠道的转化率、订单成本分析、

2022-05-16 21:59:29 294

原创 Linux三种模式常用操作

Linux三种模式常用操作一般模式编辑模式指令模式三个模式直接的关系VIM 编辑器是从 VI 发展出来的一个性能更强大的文本编辑器。可以主动的以字体颜色辨别语法的正确性，方便程序设计。VIM 与 VI 编辑器完全兼容一般模式语法功能描述yy复制光标当前一行y 数字 y复制一段（从第几行到第几行）p箭头移动到目的行粘贴u撤销上一步dd删除光标当前行d 数字 d删除光标（含）后多少行x剪切一个字母，相当于 delX剪切一个字母，

2022-05-06 15:48:38 402

原创通过这篇文章带您了解处理不均衡数据的思想与实践

处理不均衡数据主要思想数据方面算法方面实践主要思想在处理不平衡数据主要从两方面入手：数据集方面、算法本身方面数据方面对数据进行重采样，使原本不均衡的样本变得均衡。最简单的处理不均衡样本集的方法是随机采样。随机过采样：从少数类样本集中随机重复抽取样本（有放回）以得到更多样本随机欠采样：从多数类样本中随机选取较少的样本（有放回或无放回）以得到更多样本上述方法只是简单的重复的复制样本，采取一些方法生成新的样本对于过采样：SMOTE：对少数类样本集SminS_{min}Smin中的每个样本

2022-04-17 21:05:35 896

原创 Featuretools快速使用指南--看这一篇就够了

Featuretools简单攻略Featuretools介绍Featuretools快速开始Featuretools介绍人工特性工程是一项冗长乏味的任务，并且受到人类想象力的限制——我们可以思考创建的特性只有这么多，而且随着时间的推移，创建新特性需要大量的时间。理想情况下，应该有一个客观的方法来创建一系列不同的候选新特性，然后我们可以将这些特性用于机器学习任务。这个过程的目的不是替换数据科学家，而是使他的工作更容易，并允许他使用自动工作流补充领域知识。Featuretools快速开始以官方文档为例

2022-03-11 21:48:02 9074

转载机器学习之特征工程理解与总结

机器学习 -- 特征工程什么是特征工程数据预处理无量纲化标准化区间缩放标准化与归一化的区别对定量特征二值化对定性特征哑编码缺失值计算数据变换回顾特征选择Filter方差选择法相关系数法卡方检验互信息法Wrapper递归特征消除法Embedded基于惩罚项的特征选择法基于树模型的特征选择法回顾降维主成分分析法（PCA）线性判别分析法（LDA）回顾什么是特征工程有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动

2022-03-09 09:40:37 363

转载机器学习之关联规则理解

机器学习 -- 关联规则关联规则概述应用场景举例3个最重要的概念（支持度、置信度、提升度）支持度置信度提升度频繁项集Python算法实现关联规则概述1993年，Agrawal等人在首先提出关联规则概念，迄今已经差不多30年了，现今在各种新算法层出不穷，这算得上是老古董了，比很多人的年纪还大，往往是数据挖掘的入门算法，但深入研究的不多，尤其在风控领域，有着极其重要的应用潜力。比如你女朋友，低头玩手指+沉默，那大概率生气了，那这就是你总结出来的规则。啤酒与尿布的例子相信很多人都听说过吧，故事是这样的：在一

2022-03-07 15:56:45 829

原创 Flink -- 状态一致性理解

Flink 的状态一致性状态一致性一致性检查点（checkpoint）端到端（end-to-end）状态一致性端到端的精确一次（exactly-once）保证幂等写入事务写入预写日志（Write-Ahead-Log，WAL）两阶段提交（Two-Phase-Commit，2PC）Flink+Kafka 端到端状态一致性的保证Exactly-once 两阶段提交Exactly-once 两阶段提交步骤状态一致性有状态的流处理，内部每个算子任务都可以有自己的状态对于流处理器内部来说，所谓的状态一致性，其

2022-03-06 21:39:33 188

原创 Flink -- 容错机制理解

Flink 的容错机制一致性检查点从检查点恢复状态Flink检查点算法保存点（save points）一致性检查点Flink 故障恢复机制的核心，就是应用状态的一致性检查点有状态流应用的一致检查点，其实就是所有任务的状态，在某个时间点的一份拷贝（一份快照）；这个时间点，应该是所有任务都恰好处理完一个相同的输入数据的时候从检查点恢复状态在执行流应用程序期间，Flink 会定期保存状态的一致检查点如果发生故障， Flink 将会使用最近的检查点来一致恢复应用程序的状态，并重新启动处理流程

2022-03-06 21:11:25 157

原创 Flink--Watermark（水位线）与时间语义

Flink--Watermark（水位线）与时间语义时间语义设置Event TimeWatermark（水位线）Watermark 的传递、引入和设定watermark 的传递watermark 的引入TimestampAssignerwatermark 的设定时间语义Event Time：事件创建的时间Ingestion Time：数据进入Flink的时间Processing Time：执行操作算子的本地系统时间，与机器相关问：哪种时间语义更重要？答：不同时间语义有不同的应用场合，更关心

2022-02-25 10:02:52 383

原创 Flink--窗口函数（window function）

窗口函数（window function）增量聚合函数（incremental aggregation functions全窗口函数（full window functions）其他APIwindow API 总览window function定义了要对窗口中收集的数据做的计算操作主要分为两类：增量聚合函数（incremental aggregation functions每条数据到来就进行计算，保持一个简单的状态ReduceFunction, AggregateFunction全窗口函数（

2022-02-21 22:31:26 895

原创 PCA主成分分析

PCA主成分分析总述原理算法流程使用指南实际效果总述主成分分析（Principal Component Analysis，PCA）是一种多变量统计方法，它是最常用的降维方法之一，通过正交变换将一组可能存在相关性的变量数据转换为一组线性不相关的变量，转换后的变量被称为主成分。PCA主要用于发现数据中的基本结构，及数据中变量之间的关系，也用于其他机器学习的数据预处理。主成分分析主要两种算法：协方差矩阵的特征值分解和数据矩阵的奇异值分解方法。原理首先将给定的数据进行规范化，使得数据每一个变量的平均值为0

2022-02-20 17:58:35 1398

原创 Flink window API窗口相关知识

Flink window APIwindow概念window类型滚动窗口（Tumbling Windows）滑动窗口会话窗口（Session Windows）window API窗口分配器（window assigner）创建不类型的窗口window概念一般真实的流都是无界的，怎样处理无界的数据可以把无限的数据流进行切分，得到有限的数据集进行处理 ——也就是得到有界流窗口（window）就是将无限流切割成有限流的一种方式，它会将流数据分发到有限大小的桶（bucket）中进行分析window类

2022-01-19 21:58:00 1344

原创 Flink -- Sink输出

Flink--Sink输出kafkaRedisElasticsearchJDBC自定义sinkFlink没有类似于spark中foreach方法，让用户进行迭代的操作。虽有对外的输出操作都要利用Sink完成。最后通过类似如下方式完成整个任务最终输出操作。stream.addSink(new MySink(xxxx)) 官方提供了一部分的框架的sink。除此以外，需要用户自定义实现sink。kafka// 从Kafka中读取数据DataStream<String> input

2022-01-19 21:33:57 2037

原创 Flink支持的数据类型

Flink支持的数据类型概述基础数据类型Java和Scala元组（Tuples）Scala样例类（case classes）Java简单对象（POJOs）其他概述Flink流应用程序处理的是以数据对象表示的事件流。所以在.Flink内部，我们需要能够处理这些对象。它们需要被序列化和反序列化，以便通过网络传送它们;或者从状态后端、检查点和保存点读取它们。为了有效地做到这一点，Flink需要明确知道应用程序所处理的数据类型。Flink 使用类型信息的概念来表示数据类型，并为每个数据类型生成特定的序列化器、

2022-01-13 22:02:06 215

MLwodejia的博客