机器学习
文章平均质量分 93
小田
无人扶我青云志,我自踏雪向山巅。倘若命中无此运,孤身亦可登昆仑。他朝若有翻身时,生吃黄莲也叫甜。
展开
-
【机器学习技术系列】FM系列算法详解(FM、FFM、DeepFM)
可解释性强。形式简单,训练速度快。表达能力有限只在处理二分类问题上优势明显。原创 2024-04-23 17:36:06 · 3770 阅读 · 1 评论 -
【深度学习技术系列】推荐系统-双塔模型基本原理与实践
双塔模型经典又简单,就是NLP领域的 query 和 document,推荐领域的 user 和 item,多模态检索领域的图像和文字等,都可以用双塔表示,分别把两个领域的特征编码成一个向量,然后向量相似度进行召回。较早使用双塔模型的是DSSM模型。将文本编码成对应低维向量,然后通过优化向量点积估值,得到合适的query和文档向量。线上通过query和文档的相似度进行文档的召回。推荐系统中使用的双塔模型结构如下:真实的推荐领域的大规模推荐系统,通常有百万到上亿的item和user。原创 2024-04-06 23:28:46 · 3575 阅读 · 0 评论 -
【深度学习技术系列】大模型基础组件 - Tokenizer
文章目录1. 前言2. 示例3. 对比4. 子词切分4.1 字节对编码(Byte-Pair Encoding, BPE)4.1.1 训练阶段4.1.2 推理阶段4.1.3 BBPE4.2 WordPiece4.2.1 训练阶段4.2.2 推理阶段4.3 Unigram4.3.1 训练阶段4.3.2 推理阶段4.4 SentencePiece4.4.1 byte回退5. 语法5.1 英文文本向量化5.2 对中文文本向量化参考1. 前言Tokenizer是一个用于向量化文本,将文本转换为序列的类。计算机在原创 2024-03-10 22:12:50 · 2305 阅读 · 1 评论 -
【深度学习技术系列】Bert生成向量实践
对于AI开发者的GitHub,提供了模型、数据集(文本|图像|音频|视频)、类库(Transformer|peft|accelerate)、教程等。社区HuggingFace是一个高速发展的社区,包括Meta、Google、Microsoft、Amazon在内的超过5000家组织机构在为HuggingFace开源社区贡献代码、数据集和模型。目前包括模型236,291个,数据集44,810个。刚开始大多数的模型和数据集是NLP方向的,但图像和语音的功能模型正在快速更新中。GitHub。原创 2024-03-10 19:40:02 · 1457 阅读 · 0 评论 -
【PyTorch】Pytorch 入门简介
PyTorch 是一个由Facebook的人工智能研究团队开发的,开源深度学习框架。2016年发布后,PyTorch很快就因其易用性、灵活性和强大的功能而在科研社区中广受欢迎。发布伊始:2016年Facebook的AI研究团队公开了PyTorch,其旨在提供一个快速、灵活且动态的深度学习框架。PyTorch的设计哲学与Python非常相似:易读性和间接性优于隐式的复杂性。PyTorch用Python语言编写,是Python的一种扩展。原创 2024-03-08 16:31:12 · 1321 阅读 · 0 评论