Machine Learning
文章平均质量分 88
各种关于ML的文章
Keep-fight
这个作者很懒,什么都没留下…
展开
-
Transformer深入理解(持续更新)
Transformer深入理解(持续更新)编码器:原文是6个编码器堆叠(数字6没有什么神奇之处,你也可以尝试其他数字)解码组件部分也是由相同数量(与编码器对应)的解码器(decoder)组成的。所有的编码器在结构上都是相同的,但它们没有共享参数。每个编、解码器都可以分解成两个子层:自注意力层和前馈神经网络,我们首先将每个输入单词通过词嵌入算法转换为词向量,每个单词都被嵌入为512维的向量将输入序列进行词嵌入之后,每个单词都会流经编码器中的两个子层。接下来我们看看Transformer的一个核心特原创 2022-03-03 15:01:48 · 5879 阅读 · 0 评论 -
数据标注及未知类别解决方案总结
数据标注及未知类别解决方案总结前言:最近看了一些数据标注和未知分类方案总结一下1、Autonomous Unknown-Application Filtering and Labeling for DL-based Traffic Classifier Update给未知流量打标签的框架,主要解决未知流量分类的问题,提出一个开放世界流量分类的问题。为了从根本上提高网络的测量和管理水平,网络流量分类技术得到了广泛的研究。机器学习是网络流量分类的有效方法之一。具体而言,深度学习(dl)因其在不损害用户隐原创 2021-12-03 12:15:19 · 1936 阅读 · 0 评论 -
one-hot
one-hot数据预处理的tricks1、标签one-hot转化对特征进行硬编码不仅可以使用pandas的 factorize函数将文本特征进行编号,也可以使用sklearn 的LabelEncoder函数,两者的效果几乎是一样的。编码为0~n-1(n为种类数)from sklearn.preprocessing import LabelEncoderdata = pd.read_csv(pathUtils.train_path,engine='python')# 必须先fit,然后transfo原创 2021-11-25 11:11:59 · 600 阅读 · 0 评论 -
sklearn and keras 文本向量化
总结一下文本向量化文本分析是机器学习算法的一个主要应用领域。然而,原始数据的这些符号序列不能直接提供给算法进行训练,因为大多数算法期望的是固定大小的数字特征向量,而不是可变长度的原始文本。为了解决这个问题,scikit-learn提供了从文本内容中提取数字特征的常见方法,即:tokenizing: 标记字符串并为每个可能的token提供整数id,例如使用空白和标点作为token分隔符;(分词标记)counting: 统计每个文档中出现的token次数;(统计词频)normalizing: 通过减原创 2021-11-10 20:34:12 · 2112 阅读 · 0 评论