rookiexiong-CSDN博客

原创编译原理 | 语法分析

对于文法G，如果G是二义性文法。那么，L(G)中存在一个具有两个或两个以上最左(或最右)推导的句子。左递归引起的问题：左递归文法可能会使自顶向下分析陷入无限循环。消除左递归是要付出代价的——引进了一些非终结符和ε_产生式。从分析树的顶部（根节点）向底部（叶节点）方向构造分析树。可以看成是从文法开始符号S推导出词串w的过程。：1代表向前查看输入串中的1个输入符号。自顶向下的语法分析采用最左推导方式。：递归下降分析（特例：预测分析）左公因子引起的回溯问题。

2024-05-19 17:25:12 288 1

原创编译原理 | 词法分析

系统只需要根据当前所处的状态和当前面临的输入信息就可以决定系统的后继行为。正则表达式可以由较小的正则表达式按照特定规则递归地构建。语法分析器依据文法识别token串，符号的集合即是文法的终结符集合。的子表达式所表示的语言递归定义的。定义（表示）一个语言，记为。表示同样的语言，则称。

2024-05-19 10:43:18 837

原创编译原理 | 绪论、语言及其文法

翻译和优化优化目标：代码规模小、执行速度快编译：将高级语言翻译成汇编语言或机器语言的过程。

2024-05-18 22:23:38 511

原创【论文笔记】| 蛋白质大模型ProLLaMA

利用低秩适应(LoRA)并采用两阶段训练方法，将任何通用 LLM 转换为能够同时处理多个 PLP 任务的 ProLLM，在无条件/可控蛋白质序列生成、蛋白质属性预测任务中取得了最先进的结果。layers (token可能在蛋白质序列和自然语言中具有不同的含义，需要对同一token进行不同的embedding)当前的 ProLLM 缺乏自然语言能力，这阻碍了多任务能力，利用预训练的 LLAMA2 对。（类比学习新语言，模型在保留原始自然语言能力的同时学习蛋白质语言）基于上述模型针对特定任务再次进行指令微调。

2024-05-17 21:59:03 893

原创【论文笔记】| 微调LLM晶体生成

将晶体结构【crystal lattice，原子类型及坐标（Fractional coordinates / 3D coordinates）】编码为换行字符串并与文本指令相结合，然后在基础LLM (LLaMA-2)上执行参数高效微调(PEFT)微调大型语言模型以生成稳定的材料。

2024-05-17 21:51:12 797

原创【论文笔记】| 定制化生成PuLID

原文链接：https://arxiv.org/pdf/2404.16022。

2024-05-17 21:46:00 775 1

原创机器学习 | 贝叶斯神经网络

贝叶斯神经网络通过引入参数的概率分布来描述模型的不确定性。与传统的确定性神经网络不同，BNNs 通过学习参数的后验分布来对模型进行建模，从而在预测中提供。让xθ↦gθx定义的gX×Θ→Y作为神经网络（NN），其中gθx是由x和θ确定的函数。贝叶斯神经网络（BNNs）的主要假设是通过一个简单的分布来近似参数g的后验分布pθ∣D，该分布在参数空间Θ⊆RP上编码了不确定性。

2024-02-28 18:01:29 1587

原创机器学习 | 贝叶斯优化

贝叶斯优化是一种优化方法，通过在每一步中利用先前的观测结果来选择下一次评估的点，以尽可能地提高目标函数的值。它结合了贝叶斯统计模型和优化算法，能够在非凸、高维、噪声和有约束的情况下进行高效优化。假设fX→YfX→Y是一个函数，其分析上难以处理和/或评估代价很高。我们希望（不失一般性）找到x∗arg⁡max⁡x∈Xfxx∗argmaxx∈Xfx。

2024-02-27 16:26:01 1558

原创 Hadoop 实战 | 倒排索引 InvertedIndex

通过倒排索引，检索系统能够以更高效的方式在大规模文档集合中定位包含特定词项的文档，从而为用户提供快速准确的搜索结果。当用户发起查询关键词时，需要扫描索引库中的所有文档，找出所有包含关键词的文档，在检索过程中效率较低。倒排索引（Inverted Index）是信息检索领域中的一种数据结构，它是一种反转（倒排）文档-词项关系的数据结构，以支持通过词项来查找相关文档。由于需要统计单词的来源文章，因此对于Mapper需要将生成的中间键值对由改为；

2024-01-10 20:01:11 1196

原创 Hadoop 实战 | 词频统计WordCount

该程序基于Hadoop MapReduce框架实现了简单的单词计数功能，适用于大规模文本数据的并行处理。WordCount(词频统计)/* Map函数，处理每一行的文本 */input//Value使用Text类型表示文本行2：从文本中提取文档ID和实际文本内容snippet；3：使用空格、单引号和破折号作为分隔符，将文本snippet分词；for文本snippet中的每个单词：5：去除特殊字符后将写入context，发射给Reducer；end for。

2024-01-10 19:57:47 2613

原创分布式计算平台 Hadoop 简介

Hadoop是一种分析和处理大数据的软件平台，是一个用Java语言实现的Apache的开源软件框架，在大量计算机组成的集群中实现了对海量数据的分布式计算。其主要采用MapReduce分布式计算框架，包括根据GFS原理开发的分布式文件系统HDFS、根据BigTable原理开发的数据存储系统HBase以及资源管理系统YARN。

2024-01-10 19:50:36 988

原创机器学习 | 卷积神经网络

采用任意一种课程中介绍过的或者其它卷积神经网络模型（例如LeNet-5、AlexNet等）用于解决某种媒体类型的模式识别问题。

2024-01-10 19:45:57 1054

原创机器学习 | 无监督聚类K-means和混合高斯模型

实现一个K-means算法和混合高斯模型，并用EM算法估计模型中的参数。

2024-01-10 19:22:32 1066

原创机器学习 | 多层感知机MLP

自行构造一个多层感知机，完成对某种类型的样本数据的分类（如图像、文本等），也可以对人工自行构造的二维平面超过3类数据点（或者其它标准数据集）进行分类。能给出与线性分类器（自行实现）作对比，并分析原因。用不同数据量，不同超参数，比较实验效果。不许用现成的平台，例如Pytorch，Tensorflow的自动微分工具。实现实验结果的可视化。

2024-01-10 13:10:02 1211

原创算法设计与分析 | 分治算法

分治算法是一种将原问题划分为若干个相互独立且结构相同的子问题，递归地解决这些子问题，最后将子问题的解合并得到原问题解的算法思想。将原问题分解为若干个规模较小、相互独立、结构与原问题相同的子问题。这一步通常是递归的过程。递归地解决子问题。如果子问题的规模足够小，就直接求解。将子问题的解合并成原问题的解。分治算法需要证明问题。虽然分治算法通常会增加递归调用的开销，但通过高效地合并子问题的解，可以在某些情况下取得较好的性能。

2023-12-24 22:00:55 418

原创算法设计与分析 | 动态规划

动态规划（Dynamic Programming，简称DP）是一种通过把原问题分解为相互重叠的子问题，并仅仅解决每个子问题一次，将其解保存在一个表格中，从而避免重复计算，提高效率的算法思想。将原问题划分为若干个规模较小的子问题。递归地或迭代地求解子问题。通常，通过保存子问题的解避免重复计算。将子问题的解组合起来，得到原问题的解。同时，在使用动态规划时，需注意问题的以下两个原问题可以分解为若干个相同的子问题。解决这些子问题只需要一次计算，并将结果存储以避免重复计算。

2023-12-23 22:28:24 520

原创数据结构 | 栈结构及其应用

基本思想是从头至尾扫描后缀表达式y[],

2023-12-20 23:43:19 952

原创操作系统 | 任务管理

任务地址空间是指操作系统或程序为每个任务分配的内存地址范围，是一种逻辑抽象，其中包括该任务可以访问和操作的内存区域。这个地址空间用于存储任务的代码、数据、堆栈以及其他可能需要的信息。一个任务的地址空间包括该任务可以访问的段。这些段包括TSS中引用的代码、数据、堆栈和系统段，以及任务代码访问的其他段。这些段被映射到处理器的线性地址空间，而线性地址空间又被映射到处理器的物理地址空间（可以是直接映射或通过分页）。TSS中的LDT段字段可以用于为每个任务分配其自己的LDT。

2023-12-16 11:19:43 1021

原创操作系统 | 中断和异常处理

（Interrupt）和（Exception）是指明系统、处理器或当前执行程序（或任务）的某处出现一个事件，该事件需要处理器进行处理。INT nPentium 4、Intel Xeon、P6系列和Pentium处理器的机器检查架构也允许在检测到内部硬件错误和总线错误时生成机器检查异常。异常又分为三类：陷阱（Trap）、故障（Fault）和中止（Abort）。

2023-12-16 11:15:14 2241

原创哈工大计算机网络实验三——利用 Wireshark 进行协议分析

在显示筛选规则中输入“tcp”,可以看到在本地主机和服务器之间传输的一系列tcp和http报文，你应该能看到包含SYN报文的三次握手。也可以看到有主机向服务器发送的一个HTTP POST报文和一系列的“http continuation”报文。启动Web浏览器和Wireshark，选择“capture”下拉菜单中的“Capture Options”命令，设置分组俘获的选项后，开始分组捕获。

2023-12-11 11:04:28 1797

原创哈工大计算机网络实验二——可靠数据传输协议的设计与实现

如果输入为“-testgbn_recv [X][Y]”，则进入等待握手阶段（客户端处于0状态），当收到来自服务器的205状态码后，向服务器发送200状态码，同时初始化已收到的序列号recvSeq为0和等待收到的序列号waitSeq为1，进入等待传输阶段（1状态）当客户端开始请求数据，即服务器端接收到“-testgbn”报文的话，就会进入握手阶段，建立连接状态后（并不是真正的连接，只是一种类似连接的数据发送的状态），将数据打包成数据报文发送，然后等待客户端的ACK信息，同时启动计时器。

2023-12-11 10:47:55 2126 4

原创哈工大计算机网络实验一——HTTP代理服务器的设计与实现

要求在指定端口接收来自客户的HTTP请求并且根据其中的URL地址访问该地址所指向的HTTP服务器（原服务器），接收HTTP服务器的响应报文，并将响应报文转发给对应的客户进行浏览。要求能缓存原服务器响应的对象，并能够通过修改请求报文（添加头行），向原服务器确认缓存对象是否是最新版本。，支持如下功能：网站过滤：允许不允许访问某些网站；用户过滤：支持不支持某些用户访问外部网站；网站引导：将用户对某个网站的访问引导至一个模拟网站（钓鱼）。本实验实现的即是一个HTTP代理服务器，

2023-12-11 10:31:24 1616 1

原创操作系统 | 保护模式内存管理

和。在保护模式下,分段机制是必须的，分页机制则是可选的。而当分页在操作系统或执行程序中正确实现时，物理内存和磁盘之间的页面交换对于程序的正确执行是的。这两种机制(分段和分页)可以配置为支持简单的单程序(或单任务)系统、使用。分段机制将线性地址空间划分为更小的地址空间。在多任务系统或共享内存的多处理器系统，每个程序/任务可以分配私有的一组段。处理器强制规定段之间的边界，确保一个程序不会通过写入另一个程序的段来干扰另一个程序的执行。同时，分段机制还对，以便可以在特定类型的段上执行的。

2023-12-11 09:57:24 925

原创操作系统 | x86系统架构概览

系统级架构由一组和支持基本系统级操作的，如内存管理、中断和异常处理、任务管理和多处理器控制，下图为系统级寄存器和数据结构的概况。

2023-12-11 09:48:49 2485 1

原创机器学习 | 支持向量机SVM

它的目标是找到一个超平面，将数据集分割成两个类别，同时最大化分类边界（间隔）的宽度。SVM在高维空间中表现良好，对于线性和非线性数据都具有很强的泛化能力。非线性SVM通过引入核函数来将特征空间映射到一个高维空间，从而使得在高维空间中的数据线性可分。对于二分类问题，我们考虑线性可分的情况，即存在一个超平面可以完全分隔两个类别的样本。然后，我们可以在高维空间中使用线性SVM找到一个超平面，将映射后的数据分隔开。SVM的目标是找到一个最大间隔的超平面。，通过求解对偶问题，我们可以得到最优的。

2023-11-17 15:14:58 310

原创机器学习 | 朴素贝叶斯

本文介绍了朴素贝叶斯的基本原理，包含多项式、二项、高斯三种情形下的朴素贝叶斯分类器

2023-11-17 15:01:38 40

原创机器学习 | 期末复习问题总结

准备期末考试ing，遇到的问题觉得有意思就随手记录一下：

2023-11-14 16:10:54 122

原创机器学习 | 逻辑回归Logistic Regression

逻辑回归（Logistic Regression）是一种用于二分类问题的统计学习方法，它通过对输入特征的线性组合应用sigmoid函数将输出映射到[0, 1]的范围，表示某个样本属于某一类的概率。在深度学习中，交叉熵损失函数广泛用于多分类任务的模型训练，因为它对概率分布的敏感性可以帮助加速模型的收敛。而损失函数采用交叉熵损失函数，交叉熵（Cross-Entropy）损失函数是在分类问题中常用的一种损失函数，它用于。，Softmax函数的输出是一个具有 C 个元素的概率分布。逻辑回归的决策边界是一个。

2023-11-14 15:59:10 58

原创机器学习 | 决策树和信息增益

①决策树基于特征的信息增益ID3或者信息增益比C4.5，逐个特征进行处理，更加接近人的决策方式②产生的模型具有可解释性③拟合出来的函数其实是分区间的阶梯函数。④决策树可以表示输入属性的任何函数，

2023-11-14 09:30:00 147

原创扩散模型Diffusion model | 基于分数的生成模型

现有的图像生成技术在很大程度上可以根据它们如何表示概率分布分为两类。基于似然的模型，通过（近似）最大似然直接学习分布的概率密度（或质量）函数。典型的基于似然的模型包括自回归模型、归一化流动模型、基于能量的模型（EBM）和变分自编码器（VAE）。隐式生成模型，其中概率分布由其采样过程的模型隐式表示。如生成对抗网络（GAN），其中通过用神经网络转换随机高斯向量来合成来自数据分布的新样本。

2023-11-13 10:46:59 1812

原创扩散模型Diffusion model | DDIM

扩散模型Diffusion model | DDIM论文原文：Denoising Diffusion Implicit Models有关DDPM的解释可以参考我的上一篇博客：扩散模型Diffusion model | DDPMDDPM的贝叶斯解释直接根据贝叶斯定理我们有p(xt−1∣xt)=p(xt∣xt−1)p(xt−1)p(xt)p(\boldsymbol{x}_{t-1}|\boldsymbol{x}_t)=\frac{p(\boldsymbol{x}_t|\boldsymbol{x}_{t

2023-11-11 22:21:38 240

空空如也

空空如也