![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 86
远方的旅行者
随心记录
展开
-
生成式大语言模型论文导读
当下,最火的人工智能无疑就是生成式大模型,包括纯大语言模型和多模态模型,所以本次也抱着学习的态度,以大模型发展的时间线来对主要节点的一些生成式语言模型的论文进行分享(论文和分享内容会动态更新)。原创 2024-03-31 10:55:38 · 773 阅读 · 0 评论 -
GPT-2原理-Language Models are Unsupervised Multitask Learners
因为GPT-2是GPT-1的延续,所以接下来我介绍的内容都是假设你看过或者了解过GPT-1。在更大的模型上进行效果验证;在更大的数据集上进行模型训练和验证;改进了输入的有损编码情况其实本质上GPT-2就是对GPT-1的缺点进行改进、对优点进行放大、为之前的实验结果找到一个自洽的解释。所以这篇论文的介绍本身也不会太多。原创 2024-03-31 01:31:43 · 1036 阅读 · 0 评论 -
GPT-1原理-Improving Language Understanding by Generative Pre-Training
首先想感慨一波这是当下最流行的大模型的的开篇之作,由OpenAI提出。虽然【预训练+微调】的训练范式最初不是由GPT-1提出,但是基于transformer的【预训练+微调】是由GPT-1提出,这也是现在大模型所用的范式。这篇论文出自18年,比google公司出的bert要早几个月,你去看bert的论文之后发现,其实bert的思路有大部分是来自GPT-1的。细品一下,虽然当时这篇论文平平无奇,但是历史见证它的后劲很强大。下面会一一的记录一下我看了这篇论文后的理解。原创 2024-03-28 17:54:01 · 1704 阅读 · 3 评论 -
BERT原理-Pre-training of Deep Bidirectional Transformers for Language Understanding
上图就是bert利用了transforemr的编码器结构,从最底层的结构可以看出,E2为原始的单词输入,最中输出的的E2对应的embedding向量T2其实已经综合考虑了上下文信息,因为在神经网络(编码器)内部,信息是交叉,而且特别的是,这个编码器结构恰好实现了和ELMo一样的效果,既能看到单词左边的信息,也能看到单词右边的信息,这就是自注意力的好处。官方虽然没说,但是官方的图展示了,句子的结尾其实也是加的[SEP],至此所有的规则就讲完了,我先甩个图,然后把设计的所有点总结一下。原创 2024-03-14 17:34:00 · 1082 阅读 · 0 评论 -
langchain系列:langchain入门(一分钟搞定对话机器人)
随着aigc的火热,各大厂商开始提供他们自己的api服务,诸如openai、google、等,还有的直接开源出自己的模型,放到Huggingface提供使用,而LangChain就是一个基于语言模型开发应用程序的框架,它可以很方便的去调用不同公司的api,以及huggingface的资源,为人们提供统一的开发标准,降低开发难度。原创 2023-06-26 15:57:43 · 3065 阅读 · 1 评论 -
pytorch基础操作
pytorch的tensor基础知识原创 2022-07-01 15:35:55 · 2191 阅读 · 0 评论 -
决策树的实现和调优(sklearn,GridSearchCV)
前言上一篇讲了决策树的详细的原理。并手写了ID3的实现。desision-tree详细原理介绍本篇就从利用现有sklearn的包,实现决策树决策树实现决策树模型简单描述sklearn提供了两种决策树模型DecisionTreeClassifier --分类决策树,用于分类任务DecisionTreeRegressor --回归决策树,用于回归任务参数介绍DecisionTreeClassifier 参数class sklearn.tree.DecisionTreeClassifie原创 2022-06-21 00:13:25 · 7239 阅读 · 0 评论 -
矩阵分解(EVD-SVD-Funk SVD-LFM-NCF-GMF)
到了深度学习发展的阶段,NCF在LFM的基础上进行了扩展,在矩阵的求解过程中,不再是通过点乘来进行学习,而是直接将用户矩阵和物品矩阵送入到MLP中,进行充分的卷积来代替点乘,它的好处在于代替点乘的同时,可以对多个特征进行深度交叉。在FunkSVD中,需要求解三个矩阵,但是在实际的工程中,如果是基于一个用户打分矩阵进行分解的话,显然是分解为两个矩阵更好解释一些,一个为用户矩阵,一个为物品矩阵,对应行列相乘就是对应的打分情况,所以考虑将。,那么可以分解为如上的右面所示的表达,其计算过程如下。...原创 2022-05-05 21:50:23 · 1003 阅读 · 0 评论 -
关联规则aprior的python实现
#!/usr/bin/env python# encoding: utf-8"""@author: leon@time: 17:15"""import itertoolsimport osimport sysD = [[1, 2, 5], [2, 4], [2, 3], [1, 2, 4], [1, 3], [2, 3], [1, 3], [1, 2, 3, 5], [1, 2, 3]]# 生成经过去重的原始数据列表def sourceData(data): try:原创 2021-12-01 20:00:43 · 269 阅读 · 0 评论 -
神经网络(neural network)以及训练原理
什么是神经网络本篇博文仅对深度学习中的几个简单的名字做一个朴素的解释和理解生物神经网络的工作模式神经网络的发现可以说是将人工智能又拔高了一个度,现今很多了不起的成果都是在此之上完成的,那它是如何被发现的呢?既然 是“神经”,自然可以联想到人体里面的的神经,及生物神经。人体中的信息传导都是通过神经元来完成的,所以每个神经元都和其他多个神经元进行连接,信号就这样通过一个神经元接着一个神经元的往下传递,那是不是所有的信号都能被一直传递下去呢,显然不是,不然这样神经元就太敏感了,你可以想象,如果任何信息都原创 2021-03-29 14:05:51 · 1313 阅读 · 0 评论 -
聚类算法之密度聚类(DBSCAN)
dbscan(密度聚类)什么是聚类聚类是无监督学习的一个小分支,其本质就是将样本通过亲近程度对其进行分类,你可能会有疑问?分多少类别?亲近程度如何衡量?分多少类至于分多少类,有的是自动学习得到,比如DBSCAN等,有的是手动指定,比如K-means等。后续的代码中会有体现亲近关系的衡量指标至于用什么来衡量亲近程度?对于有序属性的样本,可以使用闵可夫斯基距离、欧几里得距离、曼哈顿距离来描述,对于无序属性样本,可使用VDM,下面简单介绍一个闵可夫斯基距离。闵可夫斯基距离公式dmk(xi,xj)原创 2021-03-29 14:14:22 · 2321 阅读 · 2 评论 -
聚类算法之K均值聚类(k-means)
k-means(K均值算法)什么是聚类聚类是无监督学习的一个小分支,其本质就是将样本通过亲近程度对其进行分类,你可能会有疑问?分多少类别?亲近程度如何衡量?分多少类至于分多少类,有的是自动学习得到,比如DBSCAN等,有的是手动指定,比如K-means等。后续的代码中会有体现亲近关系的衡量指标至于用什么来衡量亲近程度?对于有序属性的样本,可以使用闵可夫斯基距离、欧几里得距离、曼哈顿距离来描述,对于无序属性样本,可使用VDM,下面简单介绍一个闵可夫斯基距离。闵可夫斯基距离公式dmk(xi,x原创 2021-03-29 14:12:02 · 1120 阅读 · 0 评论 -
决策树(decision-tree)原理和实现
decision_tree(决策树)决策树算法是通过对训练数据集进行不断的分类,最终建立起来的决策树。既然是建立一棵树,自然就下如何划分根节点和叶子节点,如何建立左子树和右子树等问题。如何建立决策树节点是什么每个节点表示一个特征。每个节点如何选择其实这个问题最终就是一个问题:就是如何选择根节点,因为其他的节点也是子树的根节点,所以只要搞明白根节点是选择标准,就一切好说。在决策树中,是通过信息增益(ID3算法),信息增益率(C4.5)或者是基尼系数(CART算法)来进行根节点的选择,每一种标准原创 2021-03-29 14:09:27 · 607 阅读 · 0 评论