机器智元-CSDN博客

原创我的机器学习之路

版权声明：博客文章都是作者辛苦整理撰写的，转载请注明出处，谢谢！https://blog.csdn.net/m0_37306360/article/details/79780749时间2018年4月1号，静下心来梳理了一周的机器学习、nlp相关知识脉络，头有点炸，感觉很多地方搞不明白，网上资料鱼龙混杂，有写的好的，也有写的差的，有专门针对新手入门的，也有只有大佬才看的懂的复杂公式，作为一只入门...

2018-04-01 19:31:24 2445 4

原创搭建 RAG 系统的技巧和策略

本文作者| Yuan Shaozu【导读】RAG（Retrieval-Augmented Generation）是一种结合检索和生成的混合系统，在当前大模型的实际应用中具有重要意义。以下是我在之前分享的一些RAG搭建技巧和策略，供大家学习和参考。由于实验是在企业数据上进行验证的，因此不展示具体数据，仅进行技巧上的探讨。RAG优势通过结合检索和生成的优势，RAG显著提高了LLM答案的准确性、相关性...

2024-09-29 18:47:43 182

原创分类中的语义一致性约束：助力模型优化

前言这里介绍一篇笔者在去年ACL上发表的一篇文章，使用了空间语义约束来提高多模态分类的效果，类似的思路笔者也在视频描述等方向进行了尝试，也都取得了不错的效果。这种建模时对特征进行有意义的划分和约束对模型还是很有帮助的，在这里主要分享一下这个思路。本文选择的方向是多模态情感检测，是一个标准的多模态分类场景。有已有方法主要关注特征融合，忽视了模态异质性带来的挑战。模态异质性可能导致以下问题：1）引入冗...

2024-09-05 20:09:39 1091

原创基于骨架的AI连笔书法生成的一些启发

前言：这篇文章是笔者之前AI手写连笔书法生成的一个工作，是联合中央美院几位非常知名的老师完成的。当时提出的思路相对简单，主要结构是基于对抗生成网络（GAN）。虽然方法在大模型横行今天可能已经不算太新颖，但近期一些基于diffusion的AIGC工作还是关注到了这篇文章，并产生了一些启发。笔者认为这些灵感仍具有一定价值，因此在这里做个分享。由于一些公式和指标不太友好，为了不影响阅读故省略。图1：SP...

2024-09-04 22:48:12 781

原创对话AI科学家何晓冬老师：大模型时代的业务探索和个人发展

特邀嘉宾 | He Xiaodong访谈编辑 | Yuan Shaozu【导读】非常荣幸能与何晓冬老师进行一个小时的深入交流，这次对话让我学到很多。何老师主要分享了大模型带来的机遇、业务探索的过程，以及个人在大模型时代的发展路径。现将对话内容整理成文字版，为方便阅读，部分内容有所删减和调整。何老师简介何晓冬曾就职于美国微软雷德蒙研究院十余年，担任首席研究员及深度学习技术中心负责人。同时，他也是...

2024-07-19 21:26:22 636

原创领域大模型修炼手册—从训练、评测到应用搭建

作者|Zhenyu Zhang, Shen Lei, Yuming Zhao, Shaozu Yuan, Meng Chen 编辑|Shaozu Yuan,Yuquan Le一、整体介绍及训练框架背景介绍虽然目前的通用大模型LLM能够在很多任务上取得令人振奋的效果，但是很多私域业务领域由于由于和通用领域差距较大，直接应用开源LLM经常效果不能达到令人满意的程度。例如，电商领域、医学领...

2023-08-15 21:02:01 933

原创新闻上的文本分类：机器学习大乱斗

知乎：https://www.zhihu.com/people/wang-yue-40-21github: https://github.com/wavewangyue目标从头开始实践中...

2020-09-22 08:12:06 756

原创【机器学习】模型聚类

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了混合高斯聚类算法。首先介绍了混合高斯的类表示是一个高斯模型，相似性度量定义为服从类参数为高斯分布，其是一种典...

2020-04-10 23:18:53 615

原创【机器学习】Kmeans

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了K-means聚类算法。首先介绍了K-means算法是一种原型聚类算法，其类表示为类中心点，常用欧式距离作为...

2020-04-07 22:31:39 487

原创【机器学习】层次聚类

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了层次聚类算法。首先抛出了聚类理论中两个关键问题：何为类，何为相似，同时介绍了聚类中常用两种评价指标：内部指标...

2020-04-06 22:34:51 483

原创【机器学习】孤立森林

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了一种基于树集成的异常检测方法，其核心思想是“异常点是容易被孤立的离群点”。首先介绍了孤立森林算法的设计思路。...

2020-04-05 14:26:41 1229

原创【机器学习】三层神经网络

来源 | AI小白入门作者 | 文杰编辑 | yuquanle原文链接三层神经网络1. 神经单元深度学习的发展一般分为三个阶段，感知机–>三层神经网络–>深度学习（表示学习）。早先的感知机由于采用线性模型，无法解决异或问题，表示能力受到限制。为此三层神经网络放弃了感知机良好的解释性，而引入非线性激活函数来增加模型的表示能力。三层神经网络与感知机的两点不同1）非...

2020-04-03 16:29:33 1377

原创【机器学习】Fisher线性判别与线性感知机

来源 | AI小白入门作者 | 文杰编辑 | yuquanle原文链接Fisher线性判别与线性感知机 Fisher线性判别和线性感知机都是针对分类任务，尤其是二分类，二者的共同之处在于都是线性分类器，不同之处在于构建分类器的思想，但是二者有异曲同工之妙。同时二者又可以与logistic回归进行对比，当然logistic回归的理论基础是概率。1. Fisher线性判别 Fi...

2020-04-03 16:21:38 1117

原创【机器学习】知否？知否？广义线性模型

来源 | AI小白入门作者 | 文杰编辑 | yuquanle原文链接广义线性模型从线性回归，logistic回归，softmax回归，最大熵的概率解释来看，我们会发现线性回归是基于高斯分布+最大似然估计的结果，logistic回归是伯努利分布+对数最大似然估计的结果，softmax回归是多项分布+对数最大似然估计的结果，最大熵是基于期望+对数似然估计的结果。前三者可以从广义线...

2020-04-03 16:03:08 335

原创【机器学习】对数线性模型之Logistic回归、SoftMax回归和最大熵模型

来源 | AI小白入门作者 | 文杰编辑 | yuquanle完整代码见：原文链接1. Logistic回归分类问题可以看作是在回归函数上的一个分类。一般情况下定义二值函数，然而二值函数构成的损失函数非凸，一般采用sigmoid函数平滑拟合（当然也可以看作是一种软划分，概率划分）：从函数图像我们能看出，该函数有很好的特性，适合二分类问题。至于为何选择Sigmoid函数，后面可...

2020-04-03 15:50:45 531

原创【机器学习】一文读懂线性回归、岭回归和Lasso回归

来源 | AI小白入门作者 | 文杰编辑 | yuquanle完整代码见：原文链接1. 线性回归1.1 线性回归假设有数据有T={(x(1),y(1)),...,(x(i),y(i)),...,(x(m),y(m))}T=\left \{ \left ( x^{(1)},y^{(1)} \right ) ,...,\left ( x^{(i)},y^{(i)} \right...

2020-04-03 15:03:14 891

原创【机器学习】XGboost

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了XGboost模型。首先在GBDT的基础上介绍XGboost，然后对比了XGboost与GBDT的不同之处，...

2020-04-03 10:02:43 351

原创【智能司法】可解释的Rationale增强罪名预测系统

来源 | AI小白入门原文链接论文标题：Interpretable Rationale Augmented Charge Prediction System 论文来源：COLING 2018 论文链接：https://www.aclweb.org/anthology/C18-2032/引言任务定义罪名预测（Charge prediction）是智能司法领域最热门的任务之一...

2020-04-02 17:32:22 967

原创【机器学习】GBDT

提升树提升树GBDT同样基于最小化第mmm个学习器和前m−1m-1m−1个学习器累加起来损失函数最小，提升树采用残差的思想来最小化损失函数，将投票权重放到学习器上，使得基学习器的权重都为1。GBDT将损失用一阶多项式拟合，基学习器拟合梯度，学习器的权重为一阶多项式的系数。在前面的Adaboost中，我们需要学习MMM个基学习器，赋予不同的权重组合得到最后的强学习器。它是基于MMM个基学习器组...

2020-04-02 17:05:52 402

原创【机器学习】Adaboost

AdaboostAdaboost的Boosting理解Adaboost是集成学习中Boosting方式的代表。多个基学习器其串行执行，下一个学习器基于上一个学习器的经验，通过调整样本的权重，使得上一个错分的样本在下一个分类器更受重视而达到不断提升的效果。Adaboost集成多个学习器的关键在两点：设置基学习器的权重：am=12log1−emema_{m}=\frac{1}{2}log...

2020-04-02 17:01:53 511

原创【机器学习】随机森林

集成学习集成学习通过构建多个学习器采用加权的方式来完成学习任务，类似于”三个臭皮匠顶个诸葛亮”的思想。当然多个学习器之间需要满足一定的条件，一般来讲，多个学习器同属于一种模型，比如决策树，线性模型，而不会交叉用多种模型。为了保证集成学习的有效性，多个弱分类器之间应该满足两个条件：准确性：个体学习器要有一定的准确性，这样才能有好的效果。多样性：学习器之间要有一些差异，因为完全相同的几...

2020-04-02 16:54:18 827

原创【机器学习】决策树

来源 | AI小白入门作者 | 文杰编辑 | yuquanle原文链接决策树简介决策树是一种基本的分类和回归方法，用于分类主要是借助每一个叶子节点对应一种属性判定，通过不断的判定导出最终的决策；用于回归则是用均值函数进行多次二分，用子树中数据的均值进行回归。决策树算法中，主要的步骤有：特征选择，建树，剪枝。接下来将介绍三种典型的决策树算法：ID3，C4.5，CART。优点：...

2020-04-02 16:42:07 688

原创【机器学习】条件随机场

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了条件随机场模型，首先对比了隐马尔科夫模型、最大熵马尔科夫模型、条件随机场模型。基于前二者存在的1）独立性假设问...

2020-01-31 11:46:24 411

原创【机器学习】最大熵马尔科夫模型

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了最大熵马尔可夫模型，在隐马尔可夫模型（隐状态序列）的基础上应用最大熵模型思想，将一个概率生成模型转化为概率判别...

2020-01-30 11:30:41 939

原创【机器学习】隐马尔可夫模型

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了隐马尔可夫模型，首先介绍了隐马尔科夫模型定义，核心思想是引入了隐状态序列（引入隐状态是所有隐因子模型最巧妙的地...

2020-01-28 11:33:58 969

原创【机器学习】马尔科夫决策过程

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了马尔可夫决策过程，首先给出了马尔可夫决策过程的定义形式，其核心是在时序上的各种状态下如何选择最优决策得到最大回...

2020-01-14 23:30:00 1154

原创【机器学习】朴素贝叶斯

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了朴素贝叶斯模型，朴素贝叶斯（几乎所有的概率模型）的核心假设：特征之间的条件概率相互独立。以垃圾邮件分类问题为例，分析了朴素贝叶斯模型的两种应用场景：1）先验分布和条件概率分布都为一元伯努利分布，2）先验分布为一元伯努利分布，条件概率分布为多元伯努利分布。分别对应词袋子表示中两种常用的方法: one-hot...

2019-12-09 11:30:00 305

原创【机器学习】高斯判别分析

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了高斯判别分析，首先介绍生成模型，狭义的给出了生成模型与判别模型的一般区别；然后介绍高斯判别分析模型的三个基本假...

2019-12-08 19:20:28 708

原创【机器学习】支持向量机

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了支持向量机模型，首先介绍了硬间隔分类思想（最大化最小间隔），即在感知机的基础上提出了线性可分情况下最大化所有样...

2019-12-07 23:04:40 563

原创【机器学习】三层神经网络

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了传统的三层神经网络模型，首先介绍了网络中的神经单元概念，将一个神经单元视为一个逻辑回归模型。因此，神经网络可以看作是逻辑回归在（宽度，深度）上的延伸；然后，前向传播是一个复合函数不断传播的过程，最终视目标而定损失函数；最后，反向传播则是对复合函数求导的过程。当然三层神经网络只是深度学习的雏形，如今深度学习已经包罗万象。作者...

2019-11-10 11:30:00 2874

转载【综述】近年来NLP在法律领域的相关研究工作

跟着博主的脚步，每天进步一点点导读今天总结了下近年来NLP在法律领域的相关研究工作，包括论文、竞赛和一些优秀项目、在线系统。该项目放到了github上了：https://...

2019-10-06 23:00:00 2462

原创初学者|一步步掌握FoolNLTK

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点本文介绍了FoolNLTK的使用方法，是一个使用双向 LSTM 构建的便捷的中文处理工具包，该工具不仅...

2019-10-05 22:30:41 873

转载【综述】NLP领域迁移学习现状

跟着博主的脚步，每天进步一点点NAACL 2019tutorial 完整呈现翻译 |栗峰校对| 杨晓凡在过去一年多的时间里，以预训练模型形式进行的迁移学习已经...

2019-10-04 23:00:00 768

转载【综述】自动机器学习最近研究进展

跟着博主的脚步，每天进步一点点本文首先从端到端系统的角度总结了自动机器学习在各个流程中的研究成果，然后着重对最近广泛研究的神经结构搜索进行了总结，最后讨论了一些未来的研究...

2019-10-01 23:00:00 936

转载【干货】 Python入门深度好文（上篇）

跟着博主的脚步，每天进步一点点对于任何一种计算机语言，我觉得最重要的就是「数据类型」「条件语句 & 迭代循环」和「函数」，这三方面一定要打牢基础。此外 Pytho...

2019-09-30 23:00:00 172

转载资源 | 完备的 AI 学习路线资源整理！

跟着博主的脚步，每天进步一点点【导读】本文由知名开源平台，AI技术平台以及领域专家：Datawhale，ApacheCN，AI有道和黄海广博士联合整理贡献，内容涵盖AI...

2019-09-21 23:00:00 563

转载资源 | Python中文分词工具大合集

跟着博主的脚步，每天进步一点点这篇文章事实上整合了之前文章的相关介绍，同时添加一些其他的Python中文分词相关资源，甚至非Python的中文分词工具，仅供参考。首先介绍...

2019-09-20 23:00:00 488

转载推荐几个不错的公众号

学习如逆水行舟，不进则退；只有坚持不断的学习,才能保持进步。今天给大家精心挑选的这几个优质的公众号，在行业深耕已久，相信大家一定会有所收获，感兴趣的可以关注一下。大数据肌...

2019-09-20 23:00:00 286

转载综述 | 一文简单了解句向量

跟着博主的脚步，每天进步一点点前言如何求解一个sentence vector的表达过去，我们常见的就是从word vector到sentence vector，这种从小...

2019-09-19 23:00:58 605

原创是时候总结下2019年上半年了

点击上方蓝色字体，关注AI小白入门哟跟着博主的脚步，每天进步一点点毕业季，一首亲爱的旅人啊，让不再拥有暑假的人内心更加沉重...碎碎念今天是七月一号，七月的第一天，在某种...

2019-07-02 00:00:27 225

《Java 基础入门（传智播客出品）》高清

空空如也