![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 83
狮子座明仔
有理想,有激情,态度改变人生 github:https://github.com/shibing624
展开
-
RAG原理、综述与论文应用全解析
1.1 定义检索增强生成 (Retrieval-Augmented Generation, RAG) 是指在利用大语言模型回答问题之前,先从外部知识库检索相关信息。早在2020年就已经有人提及RAG的概念(paper:Retrieval-augmented generation for knowledge-intensive nlp tasks),首版发布在arxiv于2020年5月,当年还是seq2seq的时代,但实验就已经发现,通过检索,能快速从海量知识中找到和原本问题相关的知识,借助知识带来的信息能提原创 2024-04-03 14:09:10 · 5013 阅读 · 2 评论 -
如何设置transformers的聊天模板chat_template?
如果您喜欢这个模板,下面是一行代码的模板形式,它可以直接复制到您的代码中。如果你对 Jinja 不熟悉,我们通常发现编写聊天模板的最简单方法是先编写一个简短的 Python 脚本,按照你想要的方式格式化消息,然后将该脚本转换为模板。在为已经训练过的聊天模型设置模板时,您应确保模板与模型在训练期间看到的消息格式完全匹配,否则可能会导致性能下降。然而,请注意 Jinja 是一个通用的模板引擎,它可能会将同一行上块之间的空格视为重要,并将其打印到输出中。即使默认的聊天模板适用于您的模型,原创 2024-01-31 14:24:35 · 4906 阅读 · 1 评论 -
中文关键词提取算法
如何提取query或者文档的关键词?原创 2023-02-14 15:30:46 · 3988 阅读 · 0 评论 -
文本分类优化方法
文本分类是NLP的基础工作之一,也是文本机器学习中最常见的监督学习任务之一,情感分类,新闻分类,相似度判断、问答匹配、意图识别、推断等等领域都使用到了文本分类的相关知识或技术。文本分类技术在机器学习的发展过程中也不断的进行技术迭代,在开始介绍文本分类优化方法之前,我们先介绍文本分类的技术发展,有助于我们了解文本分类的技术痛点以及文本分类的技术方向。原创 2022-12-19 18:05:30 · 2181 阅读 · 0 评论 -
中文纠错Pycorrector是如何收获2000 Star的?
(导语)计算机行业发展至今,“开源”已逐渐成为技术茁壮成长最肥沃的土壤。而在中国,企业开源热闹非常,个人开源也方兴未艾。尽管个人开源困难重重,还是有一些开发者仍然在努力做着这样“吃力不讨好”的事情。今天的“开发者说”文章,就来自这样一位个人开发者。他做的文本纠错开源工具pycorrector,当前在GitHub上star数2165,fork数565。pycorrector主要用于音似、形似错字纠正,可用于输入法、OCR、ASR的文本错误纠正,兼容Kenlm语言模型纠错,和深度模型纠错,包括:S.原创 2021-05-31 17:34:52 · 1025 阅读 · 2 评论 -
任务型对话系统研究进展
任务型对话系统介绍我们将对话系统分成四个主要的功能:第一个是任务型对话系统,也可以认为其他都是非任务型对话系统,又可以进一步划分为聊天类、知识问答类,以及推荐类,这几个类型的机器人我们研究中心都在做。我今天主要介绍任务型的对话系统。任务型的对话机器人有很多用处,如智能汽车控制、个人助理等。组成任务型对话系统主要构成包括三模块:第一个模块为自然语言理解(这个名字不是特别好,因为我们做自然...转载 2018-12-06 19:55:34 · 2663 阅读 · 0 评论 -
竞赛分享-自动文摘(bytecup 2018)
自动文摘(Aduto text summarization)自动文摘,也称自动摘要生成,是NLP中较难的技术,难点很多,至今并没有一个非常让人满意的、成熟的技术来解决这个问题。介绍应用自动文摘技术应用最广的领域在于新闻,由于新闻信息的过载,人们迫切地希望有这么一个工具可以帮助自己用最短的时间了解最多的最有用的新闻。ps:为什么不直接看标题呢?因为很多新闻为了哗众取宠,故意将标题起的特别...原创 2018-11-09 17:24:18 · 3446 阅读 · 3 评论 -
用于语法纠错的深度上下文模型
用于语法纠错的深度上下文模型徐明 编译论文地址:https://www.isca-speech.org/archive/SLaTE_2017/pdfs/SLaTE_2017_paper_5.pdf相关开源项目:https://github.com/shibing624/pycorrector摘要本文提出了一个基于递归的深层上下文模型。用于语法错误校正的神经网络(RNN)。对于特定的错...翻译 2018-10-24 14:12:21 · 9257 阅读 · 8 评论 -
基于文法模型的中文纠错系统
基于文法模型的中文纠错系统徐明 编译论文地址:http://www.anthology.aclweb.org/W/W14/W14-6827.pdf 相关开源项目:https://github.com/shibing624/pycorrector摘要本文介绍了我们的系统在SIGHAN-8 Bake-Off 中的中文拼写检查(Chinese spelling check,...原创 2018-09-06 00:59:22 · 16178 阅读 · 3 评论 -
使用kenlm工具训练统计语言模型
一、背景统计语言模型工具有比较多的选择,目前使用比较好的有srilm及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练。现在介绍一下kenlm的使用方法。二、使用kenlm训练 n-gram1.工具主页:http://kheafield.com/code/kenlm/ 2.工具包的下载地址:http://kheafield.com/code/ke...原创 2018-03-14 20:46:05 · 20071 阅读 · 24 评论 -
Ansj中文分词说明
Ansj分词这是一个基于n-Gram+条件随机场模型的中文分词的java实现.分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上目前实现了.中文分词. 中文姓名识别 . 用户自定义词典可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.源码:https://github.com/NLPchina/ansj_seg原创 2016-06-17 17:13:15 · 15182 阅读 · 1 评论 -
关于中文分词的一元分词讨论
一元分词:指语句中每个字都成词,按字切分,不去组合,类似英文单词。回合1: 支持一元分词的观点: 其实solr自带的跨语言自然一元分词就很好了,怎么测效果也不比国内搞的分词差,也许大多数情况下不需要国产的中文分词。下面列举原因,欢迎拍砖。 1. 不可能有一种中文分词算法能完全准确地分词,完全按中文分词进行的搜索不能保证搜索的全覆盖,而按字分词的结果是可以保证的 2. 中文分词带来额外的开销,转载 2016-06-16 23:12:18 · 4360 阅读 · 0 评论 -
条件随机场模型(CRF)
CRF简介ConditionalRandomField:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词的词性,例如:名词,动词,助词)命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)原创 2016-06-16 23:25:00 · 9209 阅读 · 0 评论 -
中文分词原理和实现
三大主流分词方法:基于词典的方法、基于规则的方法和基于统计的方法。1、基于规则或词典的方法 定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配 按照长度的不同:最大匹配和最小匹配1.1正向最大匹配思想MM从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。查找大机器词原创 2016-06-17 11:22:15 · 32288 阅读 · 2 评论 -
中文分词技术介绍
随着需求的变化和技术的发展,互联网企业对数据的分析越来越深入,尤其是自然语言处理处理领域,近几年,在搜索引擎、数据挖掘、推荐系统等应用方面,都向前迈出了坚实的步伐。自然语言处理领域涉及的技术非常多,为了让对此领域感兴趣的同学能够快速入门,在这里介绍一下中文信息处理的基本技术:中文分词。 说分词是中文处理的基本技术,是由汉语的特点决定的。汉语的有些单字没有意义,多字合起来才有意义,比转载 2016-05-27 17:23:25 · 3201 阅读 · 0 评论 -
隐马尔科夫模型(Hidden Markov Model,HMM)
wiki上有定义:隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。原创 2016-09-01 17:59:44 · 18110 阅读 · 8 评论 -
开源NLP工具
中文词法分析THULAC:一个高效的中文词法分析工具包包括中文分词、词性标注功能。已经提供C++、Java、Python版本。中文文本分类THUCTC: 一个高效的中文文本分类工具提供高效的中文文本特征提取、分类训练和测试功能。THUTag: 关键词抽取与社会标签推荐工具包GitHub - YeDeming/THUTag: A Package of Keyphr转载 2016-06-16 23:03:59 · 1372 阅读 · 0 评论 -
Jieba中文分词说明
结巴分词介绍现在开源的中文分词工具,有IK、MMseg4j、THULAC、Ansj、Jieba、HanLP等,其中最近还在更新并维护的,也是目前分词效果比较优秀的要属于Ansj、Jieba、HanLP了。之前我写过Ansj分词器的介绍说明博客,现在细谈一下Jieba分词的详细思路及其实现过程。结巴分词主页结巴分词的github主页地址是:https://github.com/fxsjy/jieba(原创 2016-07-24 23:30:21 · 11367 阅读 · 1 评论 -
正确率、召回率和F值
认识正确率、召回率和F值是在鱼龙混杂的环境中,选出目标的重要评价指标。 不妨看看这些指标的定义: 正确率 = 正确识别的个体总数 / 识别出的个体总数 召回率 = 正确识别的个体总数 / 测试集中存在的个体总数 F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)示例不妨举这样一个例子:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。Sea转载 2016-06-02 09:45:14 · 796 阅读 · 0 评论