hhhh106-CSDN博客

原创一些概念的了解记录

注意力机制（attention mechanism）是一种在机器学习和自然语言处理中常用的技术。它的作用是为模型赋予对输入数据中不同部分的不同重要性权重，从而使模型能够更加关注重要的信息。注意力机制可以用于各种任务，包括机器翻译、文本摘要、图像描述生成等。在自然语言处理中，注意力机制常用于序列到序列（sequence-to-sequence）模型，如神经机器翻译（neural machine translation）和文本摘要（text summarization）等任务。

2024-03-13 11:01:20 931

原创初步了解推荐

比如新闻推荐，是基于新闻之间的cos相似度，然后根据用户的浏览记录，推荐相似度最高的几条新闻。

2024-03-04 17:34:57 198

原创因果关系推断与机器学习

因果推断

2023-02-06 09:31:24 845

原创数据挖掘与数据化运营实战

数据挖掘实战

2023-02-04 17:58:56 309

原创硅谷黑客增长

用户增长

2023-01-18 11:04:18 174

原创决策树实践

决策树

2022-07-03 18:14:35 437

原创 Kmeans聚类

Kmeans聚类聚类图特征处理

2022-07-01 12:48:40 1753

原创 Deep&Wide、DeepFm的原理

1、原理

2022-03-27 20:51:34 1732

原创激活函数家族

关键词：sigmoid、relu、tanh、softmax、激活函数、梯度消失、梯度爆炸激活函数的作用是实现特征空间的非线性转换，这样模型才可以拟合任何训练数据，使训练数据线性可分。如果一个函数能提供非线性转换（即导数不恒为常数），可导（可导是从梯度下降方面考虑。可以有一两个不可导点, 但不能在一段区间上都不可导）等性质，即可作为激活函数。在不同网络层（隐藏层、输出层）的激活函数关注的重点不一样，隐藏层关注的是计算过程的特性，输出层关注的输出个数及数值范围。Sigmoid：取值范围在[.

2022-03-21 22:04:51 248

原创 ToVec家族

WordToVecuser桶Vecitemtovec做特征embebedding

2022-03-20 20:45:07 2101

原创 ABtest依据：假设检验

相关名词：弃真错误、取伪错误，原假设、备择假设，双侧检验、左侧检验、右侧检验，统计量：Z统计量、T统计量，拒绝域、接受域，显著水平背景：一般假设检验用在实际工作中是在做AB实验时，用于确定一个新的策略、产品是否优于之前，因为对比新旧策略不可能把所有的目标用户都计算一下相关指标，比较优劣。一般是进行抽样，保证各方面条件一致的情况下，二者差异的地方只有策略不同。举个例子，我想要对比新旧策略A、B的效果，一般会有2种假设：原假设：A < B ; 备择假设： A > B...

2022-03-19 22:14:28 640

原创特征分桶的方法

对于一些连续型特征，有时直接使用效果不好，或者不适合某种模型使用，可以进行分桶，变成类别型变量。类别型变量，特别是类别数比较多的特征，也可以使用分桶的方法，进行合并，或者踢掉一些作用不大的类别。那应该怎么划分呢？有什么数据支撑划分的合理性，一般常用WOE与IV值结合进行判断。1、WOE：Weight Of Evidence计算公式：即(某一桶坏客户数/总的坏客户数)/(某一桶好客户数/总的好客户数)=某桶坏客户比例/好客户比例该值越大，说明坏客户比例越高，包含的信息越大，区分性越强，对模型

2022-03-13 22:13:12 2756

原创 HASH的作用

数据经过HASH后，类似加密，其他人就无法看到真实的数据情况，对于敏感明文数据，可以用这种方式保存。同时HASH也可以利用HASH值的唯一性，用于数据查找与分桶。HASH的构造有多种方法，不变的思想是在现有数据的基础上，通过某种映射函数，把数据变换成另一种形式，数据变换后尽可能不产生冲突，具有唯一性。如果产生冲突，可以在原有HASH值的基础上再HASH，或者使用2种HASH算法具体实现的时候，常见的HASH算法有MD5，SHA-1参考资料：hash算法原理详解_至道-CSDN博客_哈希算

2022-03-13 17:12:11 1345

原创泰勒展开：一阶，二阶

泰勒展开式:当时，是麦克劳林公式麦克劳林公式：看下图可以发现，当多项式的阶数达到一定的数值，会很接近幂函数。GBDT的损失函数是一阶泰勒展开，XGB是二阶展开梯度下降法与泰勒级数的关系：梯度下降法背后的原理 - 知乎梯度下降法和一阶泰勒展开的关系 - 知乎...

2022-03-06 15:52:44 18661

原创常见分类模型：决策树、随机森林、GBDT、XGB

1、决策树2、随机森林3、XGB4、LightGBM5、

2022-02-28 22:50:26 13157

原创常用的损失函数

损失函数（loss function）是用来估量你模型的预测值f(x)与真实值Y的不一致程度，它是一个非负实值函数,通常使用L(Y, f(x))来表示，损失函数越小，模型的鲁棒性就越好。损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项，通常可以表示成如下式子：...

2022-02-28 21:45:12 2876

原创 Spark任务调度

Spark调度任务的原理

2022-02-21 20:35:59 1031

原创不同模型加工特征的方式

多个模型特征处理方式对比

2021-11-20 18:45:09 530

原创样本不均衡的解决办法

1、过采样对于某个比较少的label，可以复制样本达到增大样本量的效果，一般这种方法不太合理，过分强调已有的样本，放大噪声样本，过拟合。也可以结合SMOTE方法，这种方法不是单纯的重复样本，而是通过某种方式对已有的样本进行加工变换，产生与已有样本相近的样本，对噪声样本的抵抗性更强，降低了过拟合的风险，但还是存在一定的缺点。适用于样本量较少的情况。2、欠采样如果样本量级较大，可以对样本量比较大的label进行欠采样，量级不够多的情况下可能会损失部分样本...

2021-11-02 17:27:34 2626

原创 XGB原理总结记录

1、CART树Classification And Regression Tree(CART)是决策树的一种，并且是非常重要的决策树，属于Top Ten Machine Learning Algorithm。顾名思义，CART算法既可以用于创建分类树（Classification Tree），也可以用于创建回归树（Regression Tree）、模型树（Model Tree），两者在建树的过程稍有差异。创建的过程是：选择当前数据集中具有最小Gini信息增益的特征作为结点划分决策树。ID3算法和C4

2020-12-23 11:43:32 9741

原创文本处理—分词

一、分词算法1、词典分词--字符串匹配分词该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别了该词。常见的基于词典的分词算法分为以下几种：正向最大匹配法、逆向最大匹配法和双向匹配分词法等。链接：https://www.jianshu.com/p/7377f6d24e87分词的难点：1、分词标准的制定2、歧义1）组合型歧义——比如“中华人民共和国”，粗粒度的分词就是“中华人民共和国”，细粒度的分词可能是“中.

2020-09-14 17:14:06 575

原创牛顿冷却定律，衰减因子alpha

牛顿冷却定律：物体的冷却速度，与其当前温度与室温之间的温差成正比。　　- T(t)是温度（T）的时间（t）函数。微积分知识告诉我们，温度变化（冷却）的速率就是温度函数的导数T'(t)。　　- H代表室温，T(t)-H就是当前温度与室温之间的温差。由于当前温度高于室温，所以这是一个正值。　　- 常数α（α>0）表示室温与降温速率之间的比例关系。前面的负号表示降温。不同的物质有不同的α值。解析后本期温度 = 上一期温度 x exp(-(冷却系数) x 间隔的小时数)-----这个可

2020-09-09 09:57:18 2679 1

原创日常学习-20200817-20200221

1、大多数元素都是0的矩阵称为稀疏矩阵，否则称为稠密矩阵。规模巨大的稀疏矩阵在应用机器学习中很常见，尤其在自然语言处理领域中，例如独热编码。稀疏矩阵的表示、计算会增加空间和时间复杂度，因此描述稀疏矩阵的稀疏性需要进行特殊的表示，以提高存储和计算性能。2、南大周志华老师写的《机器学习》这本书上原文：“为普通稠密表达的样本找到合适的字典，将样本转化为合适的稀疏表达形式，从而使学习任务得以简化，模型复杂度得以降低，通常称为‘字典学习’（dictionary learning），亦称‘稀疏编码’（sparse

2020-08-18 16:58:04 117

原创 Python使用tips

1、def pick_top_n(preds, vocab_size, top_n=5): #选取一个list数据中的前五 p = np.squeeze(preds) # 将除了top_n个预测值的位置都置为0 p[np.argsort(p)[:-top_n]] = 0 # 归一化概率 p = p / np.sum(p) # 随机选取一个字符...

2018-07-19 11:13:25 496

qq_25174485的博客