罗辑罗辑-CSDN博客

原创从零开始一步一步掌握大语言模型---（3-词表示-word representation）

例如以star举例，它和shining，bright，trees等在文档中一起出现的次数分别是38,45，2，那么就用【，，，38,，，45,2，。首先将每个词表示成一个低维向量，然后将设定的上下文长度的，例如是3，那就将这3个词的向量拼接在一起，就是首尾相接，形成一个更长的向量，然后给这个长向量做一个非线性变化，来预测下一个词出现的概率。同时对于某些出现的比较不频繁的词，文档中和这个词一起出现的词就比较少，导致用这种方式所表示的向量。一个未来的词（还没出现的词）只会受到它前面的词的影响。

2024-03-24 20:16:26 595 1

原创从零开始一步一步掌握大语言模型---（2-什么是Token?）

什么字，符号都可以用UTF-8表示。太大了。V总是256.通常大家都用Grapheme和phoneme.常见的大语言模型是如何划分token的？

2024-03-22 22:51:47 1381

原创从零开始一步一步掌握大语言模型---（1-写在最开始）

维基百科中定义大语言模型（Large Language Model, LLM）是一种语言模型，由许多神经网络的参数所组成，这些参数通常在十亿或百亿以上。这种模型使用自监督学习或者半监督学习通过对海量的未标记文本（就是互联网上爬取的）进行训练所得到的。

2024-03-21 12:17:11 549

原创反思与计划

没啥摘要，自己对自己瞎总结。

2023-01-12 11:57:02 596 2

原创 GAN(生成对抗网络)Matlab代码详解

这篇博客主要是对GAN网络的代码进行一个详细的讲解：首先是预定义：clear; clc; %%%clc是清除当前command区域的命令,表示清空,看着舒服些。而clear用于清空环境变量。两者是不同的。%%%装载数据集train_x=load('Normalization_wbc.txt');%train_x就是我们希望GAN网络能够生成与其相似的数据。[m,n]=size(train_x);%m表示train_x有多少行，n表示有多少列。%%%定义模型generator=n

2022-04-02 12:24:19 11763 56

原创 Generative Adversarial Networks 生成对抗网络 Matlab实现与讲解

GAN是一种特殊类型的多层前馈神经网络。整体上看，它就是一个多层前馈神经网络；分开来看，其包含生成器（Generator）与判别器（Discriminator）两个网络（多层前馈神经网络）。GAN属于生成模型，它的主要作用就是生成与训练数据相似的数据。GAN的核心思想：GAN之所以能够生成与训练数据相似的数据，是因为有生成器，生成器就是负责生成样本的。而判别器是负责判定生成器生成的数据质量高低与否的，以此来提高生成器的质量。下面将从生成器与判别器两部分进行一个简单的原理介绍。生成器：首先，生成器是一

2022-04-01 12:08:02 4999 44

原创从全局到局部审视离群点检测（Outlier Detection）

离群点检测（outlier detection）在很多领域都具有广泛的应用。离群点检测算法也各种各样，各种类型各种算法难以计数。我的研究是提出新的离群点检测算法（模型）。离群点检测整体我认为包含有3部分，分别是：数据集，模型，结果。数据集离群点检测所用的数据集一般包含有合成数据集与真实数据集。合成数据集真实数据集真实数据集更加符合实际应用中的情况，用真实数据集将使得算法的结果具有更强的说服力。模型结果...

2021-06-15 21:25:38 1775 4

原创特征工程：数值特征

机器学习能够处理的特征也就只有数值类型的特征。数值型数据的特征工程技术是非常基本的，只要原始数据被转换成数值型特征，就可以用现有的模型。要对数值型数据进行合理性jiancha

2021-06-10 19:01:49 329

原创 PCA的Matlab实现与分析

PCA(Principal Component Analysis)在机器学习领域中，是很常见的一种降维的方法。PCA的主要思想：将原始高维数据集中的点，映射到低维的超平面中，。

2021-06-10 12:03:38 1373 8

原创投稿之后的思考

离群点检测（outlier detection）在很多领域都具有广泛的应用。离群点检测算法也各种各样，各种类型各种算法难以计数。我的研究是提出新的离群点检测算法（模型）。离群点检测过程ke

2021-06-07 19:10:38 215

原创基于自编码器的离群点检测算法的Matlab版实现

基于自编码器的无监督离群点检测算法的核心思想是：通过将待检测数据集输入自编码器进行训练，训练完成后，那些难以被重构的对象（即重构误差较大的对象）被认为是离群点。基于AE的outlier detection存在的前提，也就是有一个假设条件存在，即：离群点难以被自编码器在输出层重构。基于AE的outlier detection的Matlab版实现如下：function [outputArg1,outputArg2] = GD_AE_OD(inputArg1,inputArg2)%SIMPLEBP

2021-01-07 12:18:04 848 3

原创基于KNN的离群点检测算法的Matlab版实现

基于KNN的outlier detection是一种很简单高效的离群点检测算法，其核心思想是：通过计算对象与其k个近邻的距离之和作为离群值OF，OF值越高，越有可能是离群点。基于KNN的outlier detection的Matlab版实现：function [outputArg1,outputArg2] = KNN(inputArg1,inputArg2)%KNN 此处显示有关此函数的摘要% 此处显示详细说明x=load('Normalization_wbc.txt');y=load

2021-01-07 12:09:39 3282 13

原创 LOF(local outlier factor)算法的Matlab版本实现

LOF算法是一种基于密度的无监督离群点检测算法，其核心思想是：通过比较对象xi与其邻居密度的相似性程度，如果越不相似，即xi的LOF值越大于1，则其是离群点的可能性越高。下面给出了LOF算法的Matlab版本实现，可直接粘贴复制，并将代码稍作修改即可运行。function [outputArg1,outputArg2] = LOF(inputArg1,inputArg2)x=load ('Normalization_wbc.txt');%装载要检测的数据集Label=load('Label_w

2021-01-07 11:51:12 7739 65

原创机器学习第16章（强化学习）

强化学习（reinforcement learning）16.1 任务与奖赏策略的优劣取决于长期执行这一策略后所得到的累积奖赏，在强化学习任务中，学习的目的就是要找到能使长期累积奖赏最大化的策略。强化学习从某种意义上可以看做具有“延迟标记信息”的监督学习问题。16.2 K-摇臂赌博机仅探索法能很好的估计每个摇臂的奖赏，却会失去很多选择最优摇臂的机会；仅利用法没有很好地估计摇臂期望奖赏，很可能经常选不到最优摇臂。sof...

2020-10-03 12:52:22 227 1

原创机器学习第15章（规则学习）

规则学习15.1 基本概念rule通常是指语义明确、能描述数据分布所隐含的客观规律或领域概念。规则学习是从训练数据中学习出一组能用于对未见示例进行判别的规则。15.2 序贯覆盖15.3 剪枝优化15.4 一阶规则学习15.5 归纳逻辑程序设计...

2020-10-03 12:19:58 232

原创机器学习第14章（概率图模型）

概率图模型14.1 隐马尔科夫模型机器学习最重要的任务：根据一些已观察到的证据（例如训练样本）来对感兴趣的未知变量（例如类别标记）进行估计和预测。probabilistic model概率模型将学习任务归结于计算变量的概率分布，在概率模型中，利用已知变量推测未知变量的分布称为“推断（inference）”，其核心是如何基于可观测变量推测出未知变量的条件分布。probabilistic graphi...

2020-10-02 20:47:57 292

原创机器学习第13章（半监督学习）

13.1 未标记样本如果有标记样本的个数太少，则由于训练不足，学得模型的泛化性能往往不见。active learning主动学习，其目标是使用尽量少的query查询来获得较好的性能。未标记样本虽然没有直接包含标记信息，但其来源也是和其他有标记样本一样，来自于独立同分布的采样。13.2 生成式方法Generative methods是直接基于生成式模型的方法，此类方法假设所有数据都是由一个潜在的模型生成的。13.3 半监督SVMSemi-Supervised Support Vec

2020-10-02 13:14:52 418

原创机器学习第12章（计算学习理论）

计算学习理论(Computational learning theory)12.1 计算学习基础知识定义：通过计算来学习的理论。目的：是分析学习任务的困难本质，为学习算法提供理论保障，并根据分析结果指导算法设计。12.2 PCA学习Probably Approximately Correct 学习理论，概率近似正确。12.3 有限假设空间可分情形意味着目标概念c属于假设空间H，即。12.4 VC维现实学习任务所面临的通常是无限假设空间，欲对...

2020-10-02 12:22:48 261

原创机器学习第11章（特征选择与稀疏学习）

11.1 子集搜索与评价11.2 过滤式选择过滤式方法先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。看起来像是先对特征进行过滤，再用过滤后的特征来训练模型。Relief(Relevant features) 算法11.3 包裹式选择包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。包裹式特征选择的目的就是为给定学习器选择最有利于其性能，量身定做的特征子集。LVW(Las Vegas Wrapper)算法11.4 嵌入式选...

2020-09-29 12:46:52 273

原创机器学习第10章（降维与度量学习）

降维与度量学习10.1 k近邻度量学习工作机制：给定测试样本，基于某种距离度量找出训练集中与其最靠近的k个训练样本，然后基于这k个邻居的信息来进行预测。在分类任务中多使用投票法，即选择这k个样本中出现最多的类别标记作为预测结果；在回归任务中多使用平均法，即将这k个样本的实值输出标记的平均值作为预测结果。给定测试样本x，若其最近邻样本为z，则最近邻分类器出错的概率就是x与z类别标记不同的概率，即：...

2020-09-28 16:12:54 266

原创机器学习第9章（聚类）

聚类（clustering）9.1 聚类任务聚类试图将数据集中的样本划分为若干个通常是不相交的子集，每个子集称为一个“簇”。通过这样的划分，每个簇可能对应于一些潜在的概念或类别。聚类过程仅能自动形成簇结构，簇所对应的概念需要人进一步去解释。假定样本集包含m个无标记样本，每个样本是一个n维特征向量，则聚类算法将样本集D划分为k个不相交的簇，其中，且，用表示样本的簇标记，即。聚类的结果可用包含m个元素的簇标记...

2020-09-28 14:47:48 669

原创机器学习第8章（集成学习）

集成学习（ensemble learning）8.1 个体与集成ensemble learning 通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统（multi-classifier system）、基于委员会的学习（committee-based learning）。集成学习的一般结构：先产生一组“个体学习器”，再用某种策略将它们结合起来。集成中只包含同种类型的个体学习器，这样的集成是“同质的（homogen...

2020-09-27 11:01:09 703

原创机器学习第7章（贝叶斯分类器）

贝叶斯分类器(Bayes classifier)7.1 贝叶斯决策论Bayesian decision theory是概率框架下实施决策的基本方法。设有N种可能的标记，即7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.6 EM算法...

2020-09-26 14:31:58 188

原创机器学习第6章（支持向量机）

支持向量机(support vector machine)6.1 间隔与支持向量6.2 对偶问题6.3 核函数6.4 软间隔与正则化6.5 支持向量回归6.6 核方法

2020-09-26 11:38:05 740

原创机器学习第5章（神经网络）

神经网络（neural network）5.1 神经元模型The definition of neural network:神经网络是由具有适应性的简单单元组成的广泛并行互联的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络最基本的组成是neuron（神经元）模型，其最初是模拟的生物神经元。当其连接的其他神经元向其传递的化学物质达到一个阈值的时候，它会激活并兴奋，向其他连接的神经元发送...

2020-09-25 12:57:51 608

原创机器学习第4章（决策树）

决策树（decision tree）4.1 决策树的基本流程决策树是基于树结构进行决策的，人脑亦是如此。一般的，一颗决策树包含一个根结点，若干个内部结点和若干个叶子结点，叶子结点对应于决策结果，其他每个结点对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根节点包含所有样本集合。从根结点到每个叶子结点的路径对应了一个判定测试序列。决策树学习的最终目的是产生一颗泛化能力强，即处理未预见示...

2020-09-25 10:31:32 273

原创机器学习第3章（线性模型）

假设，d表示x的维度（属性），表示x在第i个属性上的值。线性模型（linear model）试图学得一个通过属性的线性组合来进行预测的函数，即：公式（1）向量形式为： ...

2020-09-24 15:05:04 285

原创机器学习第二章（模型评估与选择）

二、模型评估与选择2.1 经验误差与过拟合Error rate（错误率）：将分类错误的样本数占样本总数的比例称为错误率，即在m个样本中有a个样本分类错误，则错误率E=a/m。1-a/m称为精度。更一般的，将机器学习器的实际预测输出与样本的真实输出之间的差异称为误差。学习器在训练集上的误差称为“训练误差”or“经验误差（empirical error）”，在新样本上的误差称为泛化误差（generalization error）。由于不知道新样本的特征，实际能做的只是尽力使经验误差最小化。但很多时候

2020-09-22 12:45:03 897

原创机器学习第一章（引言）

“假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则意味着关于T和P，该程序对E进行了学习”机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，从而在计算机上从数据中产生“模型”，依此来对新的未知的情况进行判断。机器学习与数据挖掘的关系：图1.机器学习与数据挖掘的关系...

2020-09-20 11:31:20 604

原创论文A LOGICAL CALCULUS OF THE IDEAS IMMANENT IN NERVOUS ACTIVITY的学习

Abstract:Because of the “all-or-none” character of nervous activity, neural events and the relations among them can be treated by means of propositional logic. It is found that the behavior of every net can be described in these terms, with the addition

2020-09-09 02:16:19 1256

原创模式识别概述

模式识别（Pattern Recongition）模式识别的定义：模式识别是一个确定样本的类别属性（模式类）的过程，即把某一样本归属于多个类型中的某个类型。样本的定义：一个具体的研究（客观）对象，如图片，字符等。模式的定义：对客体（研究对象）特征的描述（定量的或结构的描述），是取自客观世界的某一样本的测量值的集合。特征的定义：能够描述特性的量（测量值）。在统计模式识别方法中，通常用一个矢量表示，称之为特征向量，记为=（x1,x2,x3...,xn）'模式类的定义：具有某些共同特性的模式的

2020-09-09 02:04:11 2553

原创机器学习概述

一、人工智能1.人工智能的定义广泛接受的定义：“人工智能是关于知识的学科-怎样表示知识以及怎样获得知识并使用知识的科学”（尼克逊教授）or“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作”（麻省理工温斯顿教授）。总而言之：人工智能是研究人工智能活动的规律，构造具有一定智能的人工系统，研究如何让计算机去完成以往需要人的智力才能胜任的工作。即研究如何应用计算机的软硬件来模拟人类的某些智能行为的基本理论、方法与技术。2.人工智能的发展历史人工智能的发展阶段总体可分为3个时期：第一阶段人

2020-09-08 02:19:26 175

原创离群点检测常用方法

离群点检测常用方法一、基于统计的方法统计学方法是基于模型的方法，其首先给待检测数据集预设一个模型，然后将数据集中对象与预设模型的拟合程度来检测数据集中的离群点。基于统计学的离群点检测方法大多都基于构建一个概率分布模型，并考虑数据集中对象与该概率分布模型相符合的程度。定义1.基于统计学方法的离群点定义离群点是一个对象，关于数据的概率分布模型，它具有低概率。概率分布模型通过估计用户指定的分布参数，由数据创建。例如如果某数据分布满足高斯分布或者泊松分布，则其基本分布的均值和标准差均可以通过计算

2020-09-06 01:30:53 2690

原创选择排序的Matlab版实现

function [outputArg1,outputArg2] = SelectionSort(inputArg1,inputArg2)%SELECTIONSORT 此处显示有关此函数的摘要% 此处显示详细说明% 首先在未排序序列中找到最小（大）元素，存放到排序序列的起始位置。% 再从剩余未排序元素中继续寻找最小（大）元素，然后放到已排序序列的末尾。% 重复第二步，直到所有元素均排序完毕。sortarray=[3,5,1,-1,-7,4,9,-6,8,10,4];[m,n]=size.

2020-09-04 14:41:55 1647

原创冒泡排序的Matlab版实现

function [outputArg1,outputArg2] = Bubble(inputArg1,inputArg2)%BUBBLE 此处显示有关此函数的摘要% 此处显示详细说明% 冒泡排序第1次遍历后会将最大值放到最右边，这个最大值也是全局最大值。sortarray=[3,5,1,-1,-7,4,9,-6,8,10,4];[m,n]=size(sortarray);for i=1:n-1 for j=1:n-1 if sortarray(:,j)<sor...

2020-09-04 14:40:55 2033 1

原创插入排序的Matlab版实现

%函数开始function [outputArg1,outputArg2] = InsertionSort(inputArg1,inputArg2)%待排序矩阵，名为sortarraysortarray=[5,3,1,-1,-7,4,9,-6,8,10,4];%size（）函数返回的是x矩阵的行数和列数，m表示行数，n表示列数[m,n]=size(sortarray);%插入排序，默认的第一个元素是有序的，则从第二个元素开始排序 for i=2:n%temp中存放的是待..

2020-09-04 14:37:58 1788

原创离群点检测背景知识

一.研究背景及意义离群点检测（Outlier Detection）又称偏差检测（Deviation Detection）或者例外检测（Exception Detection）等等，其目标是找到待检测数据集中与绝大多数数据对象不同的对象。因为数据集中的绝大多数对象是正常的或者常见的，而离群点是那些其属性值显著偏离待检测数据集中的绝大多数对象。一般来说，数据集中的大多数对象均遵从某种特定的规则或者模式P，离群点是不遵从模式P或规则的数据对象。离群点检测的研究历史已经十分漫长，无论是在统计学领域或者机.

2020-06-05 13:02:02 2719

原创关于离群点检测的杂想

传统离群点检测致力于侦测出偏离数据集中绝大多数对象的对象，例如经典的LOF、OPTICS等算法，均会给出待检测数据集中每个对象一个离群值。某个对象的离群值越低，其越不可能是离群点。反之亦然。但这些算法未考虑一个问题，即数据集中对象未来进一步发展变化的情况。例如，若待检测数据集是WDBC数据集，每个对象在数据集建立完成后，其是否患有乳腺癌已经确定。但对于那些正常对象，其在未来的一段时间内，仍是具有转换为离群点的可能性的。传统检测算法并未探讨这类问题。综上所述，我认为传统检测算法过分追究对象的离群程度的

2020-06-04 21:20:17 300

原创感知机

用Matlab实现的阈值逻辑单元，可进行与、或、非、异或运算。代码如下：与门function [outputArg1,outputArg2] = test0930(inputArg1,inputArg2)%TEST0930 此处显示有关此函数的摘要% 此处显示详细说明% 实现一个感知机%逻辑电路中的与门% 逻辑电路的输入只有[0,0][0,1][1,0][1,1]四个选项，...

2019-10-08 12:08:17 182

原创正则自编码器之收缩自编码器(Contractive Autoencoders)

衡量一个自编码器模型的效果可以从两个标准入手：1.模型是否可以很好的重建输入信号；2.模型对输入数据在一定程度下的扰动是否具有不变性。为了使自编码器在标准2下具有更好的效果，Rifai等人提出了收缩自编码器，其主要目的是为了抑制训练样本在所有方向上的扰动。为了实现这一目标，Rifai等人提出在传统自编码器的目标函数上增加一个惩罚项来达到局部空间收缩的效果。该惩罚项是关于输入的隐藏层表达的Jac...

2019-09-11 16:25:52 3782

离群点检测数据集.zip

sql语句生成器

空空如也