
自然语言处理
文章平均质量分 86
自然语言处理
NLP工程化
NLP工程师(加微信buxingtianxia21进Dify交流群)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
残差神经网络:原理与实践
VGGNet和GoogLeNet等网络都表明有足够的深度是模型表现良好的前提,但是在网络深度增加到一定程度时,更深的网络意味着更高的训练误差。误差升高的原因是网络越深,梯度弥散[还有梯度爆炸的可能性]的现象就越明显,所以在后向传播的时候,无法有效的把梯度更新到前面的网络层,靠前的网络层参数无法更新,导致训练和测试效果变差。所以ResNet面临的问题是怎样在增加网络深度的情况下有可以有效解决梯度消失...原创 2019-01-22 21:55:26 · 4630 阅读 · 0 评论 -
优化 Character.AI 的人工智能推理
为了在全球范围内实现这一目标,实现高效的“推理”至关重要,即 LLMs 生成回复的过程。作为一家全栈人工智能公司,Character.AI 从头开始设计其模型架构、推理堆栈和产品,为优化推理提供了独特的机会,使其更加高效、更具成本效益,并可针对快速增长的全球受众进行扩展。翻译 2024-07-02 22:26:23 · 122 阅读 · 0 评论 -
在Ubuntu20.04中Docker使用GPU设备可能遇到的一种问题
在使用pytorch/torchserve:0.11.0-gpu镜像的时候,可能会遇到Error response from daemon: could not select device driver "nvidia" with capabilities: [[gpu]]。本质原因是没有安装nvidia-docker相关依赖包。原创 2024-08-08 21:15:48 · 810 阅读 · 0 评论 -
视频生成模型作为世界模拟器
这份技术报告集中于(1)我们将所有类型的视觉数据转换为统一表示的方法,该方法使得生成模型的大规模训练成为可能;以及(2)对Sora能力和限制的定性评估。模型和实现细节不包含在此报告中。原创 2024-02-17 00:02:09 · 1579 阅读 · 0 评论 -
打通Rasa Action Server和LLM接口的尝试方法
本文使用最简单的方法对打通 Rasa Action Server 和 LLM 接口进行了尝试,即当 Rasa 对话 intent 为 out_of_scope 时,调用 action_gpt_fallback 的 action,在 action 中根据 tracker.latest_message.get("text")拿到 user_input,然后再调用知识库模型的 API 接口。原创 2024-01-01 23:31:17 · 689 阅读 · 0 评论 -
BM25(Best Matching 25)算法基本思想
BM25(Best Matching 25)是一种用于信息检索(Information Retrieval)和文本挖掘的算法,它被广泛应用于搜索引擎和相关领域。BM25 基于 TF-IDF(Term Frequency-Inverse Document Frequency)的思想,但对其进行了改进以考虑文档的长度等因素。原创 2024-01-14 23:01:52 · 7743 阅读 · 2 评论 -
sklearn机器学习库
sklearn全称是scikit-learn,它是一个基于Python的机器学习类库,主要建立在NumPy、Pandas、SciPy和Matplotlib等类库之上,基本上覆盖了常见了分类、回归、聚类、降维、模型选择和预处理模块。原创 2022-08-03 07:50:53 · 1048 阅读 · 0 评论 -
使用vLLM和ChatGLM3-6b批量推理
当数据量大的时候,比如百万级别,使用 ChatGLM3-6b 推理的速度是很慢的。发现使用 vLLM 和 ChatGLM3-6b 批量推理极大的提高了推理效率。本文主要通过一个简单的例子进行实践。原创 2023-12-23 21:30:41 · 3255 阅读 · 4 评论 -
RasaGPT对话系统的工作原理
RasaGPT 结合了 Rasa 和 Langchain 这 2 个开源项目,当超出 Rasa 现有意图(out_of_scope)的时候,就会执行 ActionGPTFallback,本质上就是利用 Langchain 做了一个 RAG,调用 LLM API。RasaGPT 涉及的技术栈比较多而复杂,包括 Rasa、Langchain、LlamaIndex、Telegram、PostgresSQL、PGVector、Ngrok、FastAPI、Docker、docker-compose、Dozzle 等。原创 2023-12-23 21:28:49 · 1159 阅读 · 0 评论 -
心理健康数据集:mental_health_chatbot_dataset
该数据集包含与心理健康相关的问题和答案的对话对,以单一文本形式呈现。数据集是从流行的医疗博客(如WebMD、Mayo Clinic和HealthLine)、在线常见问题等来源精选而来的。所有问题和答案都经过匿名化处理,以删除任何个人身份信息(PII),并经过预处理以删除任何不必要的字符。原创 2023-09-18 22:41:46 · 1900 阅读 · 0 评论 -
Falcon-7B大型语言模型在心理健康对话数据集上使用QLoRA进行微调
在这里,我将偏差设置为None,但也可以将其设置为lora_only,以仅训练LoRA网络的偏差参数。使用共享模型的优点是,当与accelerate结合使用时,可以帮助accelerate将特定部分移动到不同的内存部分,有时是CPU或GPU,从而帮助在较小的内存量中微调大型模型。使用PEFT,我们可以对LLM进行高性能建模的微调,但只需要微调少量参数。在这里,load_in_4bit设置使模型以4位精度加载,bnb_4bit_use_double_quant使双重量化成为可能,正如QLoRA提出的那样。翻译 2023-09-18 22:37:53 · 290 阅读 · 0 评论 -
使用TorchLens可视化一个简单的神经网络
TorchLens:可用于可视化任何PyTorch模型,一个包用于在一行代码中提取和映射PyTorch模型中每个张量运算的结果。TorchLens功能非常强大,如果能够熟练掌握,算是可视化PyTorch模型的一把利剑。本文通过TorchLens可视化一个简单神经网络,算是抛砖引玉吧。原创 2023-09-18 00:05:42 · 177 阅读 · 0 评论 -
基于Protege的知识建模实战
添加实例之间的关系,选中"佛印禅师"->Property assertions->Object property assertions->点击±>输入对象属性名称(曾住)->输入实例名称(镇江金山寺)。首先标签Entities->Individuals->点击菱形图标->佛印禅师,然后Entities->Description->Types->Class Hierarchy->禅师。在Entities页面,选择Class标签,右键点击owl:Thing,选择增加子类"人物"和"地点"。原创 2023-09-13 23:24:24 · 3864 阅读 · 0 评论 -
典型相关分析CCA计算过程
本文介绍了CCA解决的问题,CCA原理的推导过程,以及对计算结果物理意义的解释。并且通过SPSS和R操作演示了一个关于CCA的例子。数据文件下载参考[8],SPSS输出结果文件下载参考[9],R代码文件下载参考[10]。一.CCA工作原理1.CCA定义 首先需要搞清楚典型相关分析(Canonical Correlation Analysis)解决了什么问题,它解决的是一组变量与另外一组变量的相关问题。举个例子,比如想要量化家庭特征与家庭消费之间的关系,其中,家庭特征包括户主的年龄、家庭的年收入和原创 2022-08-02 20:27:37 · 1240 阅读 · 0 评论 -
标准化、归一化和正则化的关系
首先,标准化的英文是Standardization,正则化的英文是Normalization,正则化的英文是Regularization。标准化是特征缩放的一种方式,需要注意的是标准化之后的数据分布并不一定是正态分布,因为标准化并不会改变原始数据的分布。归一化的目的是消除不同量纲及单位影响,提高数据间的可比性。正则化的目的是为了防止过拟合。[5]。.........原创 2022-07-17 08:52:46 · 1658 阅读 · 0 评论 -
TextCNN和TextRNN:原理与实践
1.TextCNN原理CNN的核心点在于可以捕获信息的局部相关性,具体到文本分类任务中可以利用CNN来提取句子中类似N-Gram的关键信息。[1]一维卷积:使用不同尺寸的kernel_size来模拟语言模型中的N-Gram,提取句子中的信息。即TextCNN中的卷积用的是一维卷积,通过不同kernel_size的滤波器获取不同宽度的视野。[2]词向量:static的方式采用预训练的词向量,...原创 2019-01-24 10:38:52 · 4146 阅读 · 0 评论 -
Word2Vec模型总结
Huffman树的构造 解析:给定n个权值作为n个叶子节点,构造一棵二叉树,若它的带权路径长度达到最小,则称这样的二叉树为最优二叉树,也称Huffman树。数的带权路径长度规定为所有叶子节点的带权路径长度之和。Huffman树构造,如下所示: (1)将{w1,w2,...,w3}\{w_1,w_2,...,w_3\}看成是有n颗树的森林; (2)在森林中选出两个根节点的权值最小的树合并,作为一原创 2017-11-05 12:01:53 · 1061 阅读 · 0 评论 -
GBDT算法总结
一. GBDT基本原理GBDT(Gradient Boosting Decision Tree)又叫MART(Multiple Additive Regression Tree),它是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终结果。Gradient Boosting与传统Boost区别:(1)Gradient Boosting每个新模型的建立是为了使之前模型的残差往梯...原创 2017-05-30 11:30:18 · 1186 阅读 · 0 评论 -
Isolation Forest算法总结
一.iForest算法原理Isolation Forest(简称iForest)由Isolation Tree(简称iTree)构成。1.iTree2.iForest参考文献:[1]Isolation Forest[2]Isolation-based Anomaly Detection[3] 异常挖掘Isolatio原创 2017-05-08 23:24:23 · 4070 阅读 · 2 评论 -
随机森林原理与应用
简化理解,随机森林RF[Random Forest]是Bagging算法和决策树DT分类器的一种结合,能够执行分类和回归任务。除此之外,模型组合+决策器还有一种比较基本的形式是梯度提升决策树GBDT[Gradient Boost Decision Tree]。随机森林的优势之一是能够处理特征数量巨大的数据,比如基因芯片数据等。1. 随机森林算法[1]从原始数据集中有放回地随机采样出n个样本...原创 2016-08-22 16:36:14 · 3334 阅读 · 0 评论 -
广义线性模型:第4部分
1.1.9 Orthogonal Matching PursuitOMP即正交匹配追踪算法。匹配追踪[Matching Pursuit]算法在稀疏表达领域是一个很常用的算法,而OMP在分解的每一步对所选择的全部原子进行正交化处理,这使得在精度要求相同的情况下,它的收敛速度更快。1.1.10 Bayesian Regression1.1.10.1 Bayesian Ridge Re...原创 2016-05-20 23:51:17 · 907 阅读 · 0 评论 -
广义线性模型:第3部分
词袋模型和主题模型的相关讲解,如下所示:[1]bag of words modelbag of words,也叫做“词袋”,在信息检索中,bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立...原创 2014-06-20 21:24:20 · 4032 阅读 · 0 评论 -
ID3算法思想以及实现
数据挖掘中的分类主要包括基于决策树的分类、基于规则的分类、基于神经网络的分类、基于支持向量机的分类、基于朴素贝叶斯的分类等。原创 2014-04-28 15:29:31 · 13910 阅读 · 0 评论 -
广义线性模型:第2部分
1.1.2 Ridge Regression[岭回归]岭回归和普通最小二乘法回归的一个重要区别是前者对系数模的平方进行了限制。如下所示:In [1]: from sklearn import linear_modelIn [2]: clf = linear_model.Rlinear_model.RandomizedLassolinear_model.RandomizedLogi...原创 2014-04-20 18:13:02 · 3603 阅读 · 0 评论 -
广义线性模型:第1部分
1.1 Generalized Linear Models[广义线性模型]线性模型[linear model],也称经典线性模型[classical linear model]或一般线型模型[general linear model,GLM]。 广义线性模型[generalized linear model,GENMOD]由Nelder & Wedderburn[1972]首先提出,...原创 2014-04-16 10:46:19 · 7190 阅读 · 0 评论 -
卷积神经网络总结
一. CNN的生物原理,应用以及优点CNN根据人眼睛视觉神经的局部感受野特点设计,广泛应用在图像图像,模式识别,机器视觉和语音识别中,它对图像平移、缩放、旋转等的变形具有高度不变性。总之,CNN的核心思想是将局部感受野,权值共享,时间或空间子采样这三种思想结合起来获得了某种程度的平移、缩放、旋转不变性。二. CNN的网络结构CNN是一个多层的神经网络,每层由多个二维平面组成,而每原创 2016-08-16 14:19:30 · 12098 阅读 · 2 评论 -
在Windows上安装PyCUDA和Theano
最近几个月在学习Deep Learning,刚开始的时候什么条件都不具备。自己从淘宝上面买了一个GT 240,搭建一个GPU环境用于程序的调试。折腾了几个月,以前PyCUDA总是搭建失败,最近几天才尝试成功。为了学习Deep Learning的源代码,自己又搭建了Theano环境。由于时间紧张,自己概略总结如下,以备忘记。原创 2015-04-29 21:14:03 · 4543 阅读 · 0 评论 -
多层前馈神经网络及BP算法
1.多层前馈神经网络 首先说下多层前馈神经网络,BP算法,BP神经网络之间的关系。多层前馈(multilayer feed-forward)神经网络由一个输入层、一个或多个隐藏层和一个输出层组成,后向传播(BP)算法在多层前馈神经网络上面进行学习,采用BP算法的(多层)前馈神经网络被称为BP神经网络。给出一个多层前馈神经网络的拓扑结构,如下所示: 图1 多层前馈神经网络神经网络的拓...原创 2018-01-23 14:00:30 · 31887 阅读 · 6 评论