自然语言处理
文章平均质量分 73
大鹏的NLP博客
擅长自然语言处理,知识图谱,人工智能,大数据,K8S,软件工程等领域的技术及管理
展开
-
本地源码方式部署启动MaxKB知识库问答系统
此命令应列出所有可用的扩展。专门查找 pgvector.control .python 版本大于3.11。初始的账号admin 密码。登录之后会提示你修改密码。原创 2024-09-11 16:34:32 · 285 阅读 · 0 评论 -
fatal: unable to access ‘https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2/‘: Failed to
如果你曾设置过代理,便会在再设置代理时遭遇此错误。使用 --unset-all 替代 --unset 即可解决。原创 2024-07-26 09:26:13 · 357 阅读 · 0 评论 -
文本生成任务的评价方法BLEU 和 ROUGE、BERTScore
BLEU 是 2002 年提出的,而 ROUGE 是 2003 年提出的。这两种指标虽然存在着一些问题,但是仍然是比较主流的评价指标。原创 2024-04-20 20:22:05 · 2339 阅读 · 0 评论 -
gemma 大模型(gemma 2B,gemma 7B)微调及基本使用
Gemma是Google推出的一系列轻量级、最先进的开放模型,基于创建Gemini模型的相同研究和技术构建。提供了 2B 和 7B 两种不同规模的版本,每种都包含了预训练基础版本和经过指令优化的版本。所有版本均可在各类消费级硬件上运行,无需数据量化处理,拥有高达 8K tokens 的处理能力:它们是文本到文本的、仅解码器的大型语言模型,提供英语版本,具有开放的权重、预训练的变体和指令调优的变体。Gemma模型非常适合执行各种文本生成任务,包括问答、摘要和推理。原创 2024-03-28 21:41:31 · 8569 阅读 · 6 评论 -
Transformers 直观解释——不仅是如何工作,而且为什么工作得这么好
查询Q和键K之间的点积计算每对单词之间的相关性。然后将该相关性用作“因子”来计算所有值V的加权和。该加权和作为注意力分数输出。Transformer 学习嵌入等,从而使彼此相关的单词更加对齐。这是引入三个线性层并为查询、键和值创建三个版本的输入序列的原因之一。这为注意力模块提供了更多参数,它可以学习这些参数来调整词向量的创建。原创 2024-03-27 22:36:02 · 794 阅读 · 0 评论 -
传统语音识别系统流程
语音识别传统方法主要分两个阶段:训练和识别,训练阶段主要是生成声学模型和语言模型给识别阶段用。原创 2024-01-19 18:18:34 · 1163 阅读 · 0 评论 -
Paraformer 语音识别原理
模Paraformerr的组成:Encoder(编码器),Predictor(预测器),Sampler(采样器),Decoder(解码器),loss function。原创 2023-11-30 17:23:54 · 2489 阅读 · 0 评论 -
NLP中 大语言模型LLM中的思维链 Chain-of-Thought(CoT) GoT
在过去几年的探索中,业界发现了一个现象,在增大模型参数量和训练数据的同时,在多数任务上,模型的表现会越来越好。因而,现有的大模型LLM,最大参数量已经超过了千亿。然而,增大模型参数规模,对于一些具有挑战的任务(例如算术、常识推理和符号推理)的效果,并没有太大提升。对于算术类推理任务,我们期望模型生成自然语言逻辑依据来指导并生成最终答案,但是获得逻辑依据是比较复杂昂贵的(标注成本层面)。原创 2023-11-24 22:19:47 · 4166 阅读 · 0 评论 -
长短期记忆网络(LSTMs)介绍
长短期记忆网络(LSTMs)介绍1:传统RNN的缺点,LSTM结构解析,LSTM变体简介转载 2022-11-14 18:43:49 · 146 阅读 · 0 评论 -
Bert微调技巧大全
论文摘要这篇论文的主要目的在于在文本分类任务上探索不同的BERT微调方法并提供一种通用的BERT微调解决方法。这篇论文从三种路线进行了探索:(1) BERT自身的微调策略,包括长文本处理、学习率、不同层的选择等方法;(2) 目标任务内、领域内及跨领域的进一步预训练BERT;(3) 多任务学习。微调后的BERT在七个英文数据集及搜狗中文数据集上取得了当前最优的结果。有兴趣的朋友可以点击上面的实验代码,跑一跑玩一玩~见: https://mp.weixin.qq.com/s/uYHYISd72rF_0uQI转载 2021-08-25 10:01:45 · 1321 阅读 · 0 评论 -
pyltp测试笔记
ltp数据地址:http://ltp.ai/download.html分句 def test_split(self):#分句 sents = SentenceSplitter.split('人工智能是一门极富挑战性的科学。从事这项工作的人必须懂得计算机知识,心理学和哲学。') # 分句 print('\n'.join(sents))结果...原创 2018-09-01 18:26:04 · 806 阅读 · 0 评论 -
中文分词笔记之二:隐马尔科夫模型
总结,隐马尔科夫模型一共有两组状态,三个矩阵 隐藏状态:一个系统的(真实)状态,可以由一个马尔科夫过程进行描述(例如,天气)。 观察状态:在这个过程中‘可视’的状态(例如,海藻的湿度)。 向量:包含了(隐)模型在时间 t=1 时一个特殊的隐藏状态的概率(初始概率)。 状态转移矩阵:包含了一个隐藏状态到另一个隐藏状态的概率 混淆矩阵:包含了给定隐马尔科夫模型的某一个特殊的隐原创 2015-01-29 22:11:04 · 1526 阅读 · 0 评论 -
中文分词笔记之三:示例代码及测试结果
示例代码: /** *g为邻接表 *i为当前节点 */ Iterator it1 = g.getPrev(i);//得到一级前驱词集合 double maxProb = Double.NEGATIVE_INFINITY; int maxPrev1 = -1; int maxPrev2 = -1; while(it1.hasNext()) { CnToken t1原创 2015-01-31 13:46:16 · 993 阅读 · 0 评论 -
双数组Trie笔记
理论见: http://xudongliang198421.blog.163.com/blog/static/9851503520118155553856另见:http://www.hankcs.com/program/java/%E5%8F%8C%E6%95%B0%E7%BB%84trie%E6%A0%91doublearraytriejava%E5%AE%9E%E7%8E%B0.html例子出自原创 2016-11-04 21:03:13 · 721 阅读 · 0 评论 -
中文分词笔记之二:隐马尔科夫模型
这里以中文分词为例: 在正常的马尔可夫模型中,状态对于观察者来说是直接可见的。这样状态的转换概率便是全部的参数。而在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。每一个状态在可能输出的符号上都有一概率分布。因此输出符号的序列能够透露出状态序列的一些信息。隐马尔科夫模型一共有两组状态,三个矩阵: 隐藏状态:一个系统的(真实)状态,可以由一个马尔科夫过原创 2016-12-23 16:12:46 · 1576 阅读 · 0 评论 -
AC自动机算法笔记
AC算法是Alfred V.Aho(《编译原理》(龙书)的作者),和Margaret J.Corasick于1974年提出(与KMP算法同年)的一个经典的多模式匹配算法,可以保证对于给定的长度为n的文本,和模式集合P{p1,p2,...pm}P\{p_1,p_2,...p_m\},在O(n)时间复杂度内,找到文本中的所有目标模式,而与模式集合的规模m无关. AC算法从某种程度上可以说是KMP原创 2016-12-29 17:18:20 · 1468 阅读 · 0 评论 -
python 环境下gensim中的word2vec的使用笔记
centos 7, python2.7, gensim (0.13.1)语料:http://211.136.8.18/files/10940000015A9F94/mattmahoney.net/dc/text8.zip程序:# -*- coding: utf-8 -*-'''Created on 2016年8月29日测试gensim使用@author: root'''from gensi原创 2016-08-29 16:57:44 · 36796 阅读 · 0 评论 -
kaldi安装
利用gcc-6.3.0安装失败,建立软链接也是失败,重启系统不受影响。使用系统gcc安装开始安装cd kaldi-5.0 cd tools extras/check_dependencies.sh result: extras/check_dependencies.sh: all OK.make -j4 extras/install_irstlm.shkaldi目录下 cd sr原创 2017-02-28 12:09:27 · 966 阅读 · 0 评论 -
自然语言处理语料库
搜狗实验室数据资源http://www.sogou.com/labs/resource/list_pingce.php自然语言处理与信息检索共享平台http://www.nlpir.org/?action-category-catid-28参考:http://blog.csdn.net/u012052268/article/details/78035272其它语...原创 2018-03-22 14:24:28 · 2230 阅读 · 1 评论 -
pandas 学习笔记
https://ericfu.me/10-minutes-to-pandas/ DataFrame 是由 Series 组成的,内部使用numpy格式存储用 head 和 tail 查看顶端和底端的几列df = pd.DataFrame({ 'A' : 1., 'B' : pd.Timestamp('20130102'), ...原创 2018-08-28 12:26:30 · 308 阅读 · 0 评论 -
中文分词笔记之一:概率基础
分词,对于一个字符串C=可以输出多个词串S=,而S中最大的那个,就是我们要的结果。根据贝叶斯公式,其中P(C),可以从语料库统计得出,在这里只是一个固定值;且P(C|S)=1。因此,比较P(S|C)的大小变成比较P(S)的大小: 根据马尔科夫模型可得:P(S) = P(w1,w2,...,wn)= P(w1)P(w2|w1) P(w3|w1,w2原创 2015-01-28 23:07:37 · 7512 阅读 · 0 评论