NLP
文章平均质量分 87
XuMing&
有理想,有激情,态度改变人生
github:[https://github.com/shibing624](https://github.com/shibing624)
展开
-
CoT让Transformer打破推理极限的讨论
通过 CoT,Transformer 几乎可以解决任何问题,这是因为它能够模拟更复杂的推理过程,从而超越了 AC0 电路的局限。LeCun 进一步表示,人类推理链的简洁性和效率与 CoT 的方法不同,而且 AI 目前只能进行暴力搜索,而没有人类的 “启发式” 思考和 “直觉”。这意味着传统的 Transformer 模型能够处理的问题范围有限,只能解决一定复杂度的问题。这项工作暗示着,CoT为更强大的LLM推理提供了新的思路,CoT或将成为未来LLM发展的重要方向,而且很可能闪烁着AGI的火花。原创 2024-09-25 17:47:07 · 345 阅读 · 0 评论 -
揭秘OpenAI o1:AI的超越时刻与技术突破
OpenAI官方发布了OpenAI o1 团队的采访视频,分享了 AI 模型超越人类的惊人时刻,以及背后的开发故事和技术挑战。来自艾伦研究所的科学家Nathan Lambert对这个视频,做了一个精彩亮点的总结。原创 2024-09-23 14:21:02 · 575 阅读 · 0 评论 -
大模型幻觉的原因分析和缓解方法
OpenAI 的华人科学家翁荔在其最新的 Blog 中,提出了大型语言模型(LLM)的 “外在幻觉” 问题。她将 LLM 的幻觉问题具体化为模型输出内容是虚构的,并且不基于所提供的上下文或世界知识。上下文内幻觉:模型的输出应该和上下文里的内容一致,但有时输出和上下文内容不一致,这就叫上下文内幻觉。外在幻觉:模型的输出应该基于之前预训练的数据集,然而,由于数据集很大,每次生成内容时去检索和识别冲突的成本很高。翻译 2024-08-20 20:12:32 · 530 阅读 · 0 评论 -
思考高质量的人类数据【译】
原文:Thinking about High-Quality Human Data**高质量的数据是现代深度学习模型训练的燃料。**大多数任务特定的标记数据来自人工注释,例如分类任务或 RLHF 标记(可以构建为分类格式)用于LLM对齐训练。后期的许多 ML 技术可以帮助提高数据质量,但从根本上讲,人类数据收集涉及对细节的关注和谨慎的执行。人们知道高质量数据的价值,但不知何故,我们有这种印象:“每个人都想做模型工作,而不是数据工作”(Sambasivan 等人,2021 年)。图 1. 实现高数据质量的两种翻译 2024-08-20 22:48:52 · 251 阅读 · 0 评论 -
将 HuggingFace 模型转换为 GGUF 及使用 ollama 运行 —— 以 Qwen2-0.5B 为例
GGUF 格式的全名为(GPT-Generated Unified Format),提到 GGUF 就不得不提到它的前身 GGML(GPT-Generated Model Language)。GGML 是专门为了机器学习设计的张量库,最早可以追溯到 2022/10。其目的是为了有一个单文件共享的格式,并且易于在不同架构的 GPU 和 CPU 上进行推理。但在后续的开发中,遇到了灵活性不足、相容性及难以维护的问题。使用ollama create命令创建自定义模型。原创 2024-08-02 23:14:19 · 2254 阅读 · 0 评论 -
RAG原理、综述与应用全解析【万字长文】
1.1 定义检索增强生成 (Retrieval-Augmented Generation, RAG) 是指在利用大语言模型回答问题之前,先从外部知识库检索相关信息。早在2020年就已经有人提及RAG的概念(paper:Retrieval-augmented generation for knowledge-intensive nlp tasks),首版发布在arxiv于2020年5月,当年还是seq2seq的时代,但实验就已经发现,通过检索,能快速从海量知识中找到和原本问题相关的知识,借助知识带来的信息能提原创 2024-04-03 14:09:10 · 6349 阅读 · 2 评论 -
如何设置transformers的聊天模板chat_template?
如果您喜欢这个模板,下面是一行代码的模板形式,它可以直接复制到您的代码中。如果你对 Jinja 不熟悉,我们通常发现编写聊天模板的最简单方法是先编写一个简短的 Python 脚本,按照你想要的方式格式化消息,然后将该脚本转换为模板。在为已经训练过的聊天模型设置模板时,您应确保模板与模型在训练期间看到的消息格式完全匹配,否则可能会导致性能下降。然而,请注意 Jinja 是一个通用的模板引擎,它可能会将同一行上块之间的空格视为重要,并将其打印到输出中。即使默认的聊天模板适用于您的模型,原创 2024-01-31 14:24:35 · 7173 阅读 · 1 评论 -
中文关键词提取算法
如何提取query或者文档的关键词?原创 2023-02-14 15:30:46 · 4303 阅读 · 0 评论 -
文本分类优化方法
文本分类是NLP的基础工作之一,也是文本机器学习中最常见的监督学习任务之一,情感分类,新闻分类,相似度判断、问答匹配、意图识别、推断等等领域都使用到了文本分类的相关知识或技术。文本分类技术在机器学习的发展过程中也不断的进行技术迭代,在开始介绍文本分类优化方法之前,我们先介绍文本分类的技术发展,有助于我们了解文本分类的技术痛点以及文本分类的技术方向。原创 2022-12-19 18:05:30 · 2285 阅读 · 0 评论 -
中文纠错Pycorrector是如何收获2000 Star的?
(导语)计算机行业发展至今,“开源”已逐渐成为技术茁壮成长最肥沃的土壤。而在中国,企业开源热闹非常,个人开源也方兴未艾。尽管个人开源困难重重,还是有一些开发者仍然在努力做着这样“吃力不讨好”的事情。今天的“开发者说”文章,就来自这样一位个人开发者。他做的文本纠错开源工具pycorrector,当前在GitHub上star数2165,fork数565。pycorrector主要用于音似、形似错字纠正,可用于输入法、OCR、ASR的文本错误纠正,兼容Kenlm语言模型纠错,和深度模型纠错,包括:S.原创 2021-05-31 17:34:52 · 1086 阅读 · 2 评论 -
任务型对话系统研究进展
任务型对话系统介绍我们将对话系统分成四个主要的功能:第一个是任务型对话系统,也可以认为其他都是非任务型对话系统,又可以进一步划分为聊天类、知识问答类,以及推荐类,这几个类型的机器人我们研究中心都在做。我今天主要介绍任务型的对话系统。任务型的对话机器人有很多用处,如智能汽车控制、个人助理等。组成任务型对话系统主要构成包括三模块:第一个模块为自然语言理解(这个名字不是特别好,因为我们做自然...转载 2018-12-06 19:55:34 · 2683 阅读 · 0 评论 -
竞赛分享-自动文摘(bytecup 2018)
自动文摘(Aduto text summarization)自动文摘,也称自动摘要生成,是NLP中较难的技术,难点很多,至今并没有一个非常让人满意的、成熟的技术来解决这个问题。介绍应用自动文摘技术应用最广的领域在于新闻,由于新闻信息的过载,人们迫切地希望有这么一个工具可以帮助自己用最短的时间了解最多的最有用的新闻。ps:为什么不直接看标题呢?因为很多新闻为了哗众取宠,故意将标题起的特别...原创 2018-11-09 17:24:18 · 3515 阅读 · 3 评论 -
用于语法纠错的深度上下文模型
用于语法纠错的深度上下文模型徐明 编译论文地址:https://www.isca-speech.org/archive/SLaTE_2017/pdfs/SLaTE_2017_paper_5.pdf相关开源项目:https://github.com/shibing624/pycorrector摘要本文提出了一个基于递归的深层上下文模型。用于语法错误校正的神经网络(RNN)。对于特定的错...翻译 2018-10-24 14:12:21 · 9309 阅读 · 8 评论 -
Ansj中文分词说明
Ansj分词这是一个基于n-Gram+条件随机场模型的中文分词的java实现.分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上目前实现了.中文分词. 中文姓名识别 . 用户自定义词典可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.源码:https://github.com/NLPchina/ansj_seg原创 2016-06-17 17:13:15 · 15240 阅读 · 1 评论 -
关于中文分词的一元分词讨论
一元分词:指语句中每个字都成词,按字切分,不去组合,类似英文单词。回合1: 支持一元分词的观点: 其实solr自带的跨语言自然一元分词就很好了,怎么测效果也不比国内搞的分词差,也许大多数情况下不需要国产的中文分词。下面列举原因,欢迎拍砖。 1. 不可能有一种中文分词算法能完全准确地分词,完全按中文分词进行的搜索不能保证搜索的全覆盖,而按字分词的结果是可以保证的 2. 中文分词带来额外的开销,转载 2016-06-16 23:12:18 · 4386 阅读 · 0 评论 -
条件随机场模型(CRF)
CRF简介ConditionalRandomField:条件随机场,一种机器学习技术(模型)CRF由John Lafferty最早用于NLP技术领域,其在NLP技术领域中主要用于文本标注,并有多种应用场景,例如:分词(标注字的词位信息,由字构词)词性标注(标注分词的词性,例如:名词,动词,助词)命名实体识别(识别人名,地名,机构名,商品名等具有一定内在规律的实体名词)原创 2016-06-16 23:25:00 · 9249 阅读 · 0 评论 -
中文分词原理和实现
三大主流分词方法:基于词典的方法、基于规则的方法和基于统计的方法。1、基于规则或词典的方法 定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同:正向匹配和逆向匹配 按照长度的不同:最大匹配和最小匹配1.1正向最大匹配思想MM从左向右取待切分汉语句的m个字符作为匹配字段,m为大机器词典中最长词条个数。查找大机器词原创 2016-06-17 11:22:15 · 32405 阅读 · 2 评论 -
中文分词技术介绍
随着需求的变化和技术的发展,互联网企业对数据的分析越来越深入,尤其是自然语言处理处理领域,近几年,在搜索引擎、数据挖掘、推荐系统等应用方面,都向前迈出了坚实的步伐。自然语言处理领域涉及的技术非常多,为了让对此领域感兴趣的同学能够快速入门,在这里介绍一下中文信息处理的基本技术:中文分词。 说分词是中文处理的基本技术,是由汉语的特点决定的。汉语的有些单字没有意义,多字合起来才有意义,比转载 2016-05-27 17:23:25 · 3225 阅读 · 0 评论 -
隐马尔科夫模型(Hidden Markov Model,HMM)
wiki上有定义:隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。原创 2016-09-01 17:59:44 · 18150 阅读 · 8 评论 -
开源NLP工具
中文词法分析THULAC:一个高效的中文词法分析工具包包括中文分词、词性标注功能。已经提供C++、Java、Python版本。中文文本分类THUCTC: 一个高效的中文文本分类工具提供高效的中文文本特征提取、分类训练和测试功能。THUTag: 关键词抽取与社会标签推荐工具包GitHub - YeDeming/THUTag: A Package of Keyphr转载 2016-06-16 23:03:59 · 1392 阅读 · 0 评论 -
Jieba中文分词说明
结巴分词介绍现在开源的中文分词工具,有IK、MMseg4j、THULAC、Ansj、Jieba、HanLP等,其中最近还在更新并维护的,也是目前分词效果比较优秀的要属于Ansj、Jieba、HanLP了。之前我写过Ansj分词器的介绍说明博客,现在细谈一下Jieba分词的详细思路及其实现过程。结巴分词主页结巴分词的github主页地址是:https://github.com/fxsjy/jieba(原创 2016-07-24 23:30:21 · 11416 阅读 · 1 评论 -
使用kenlm工具训练统计语言模型
一、背景统计语言模型工具有比较多的选择,目前使用比较好的有srilm及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练。现在介绍一下kenlm的使用方法。二、使用kenlm训练 n-gram1.工具主页:http://kheafield.com/code/kenlm/ 2.工具包的下载地址:http://kheafield.com/code/ke...原创 2018-03-14 20:46:05 · 20308 阅读 · 24 评论 -
基于文法模型的中文纠错系统
基于文法模型的中文纠错系统徐明 编译论文地址:http://www.anthology.aclweb.org/W/W14/W14-6827.pdf 相关开源项目:https://github.com/shibing624/pycorrector摘要本文介绍了我们的系统在SIGHAN-8 Bake-Off 中的中文拼写检查(Chinese spelling check,...原创 2018-09-06 00:59:22 · 16358 阅读 · 3 评论 -
正确率、召回率和F值
认识正确率、召回率和F值是在鱼龙混杂的环境中,选出目标的重要评价指标。 不妨看看这些指标的定义: 正确率 = 正确识别的个体总数 / 识别出的个体总数 召回率 = 正确识别的个体总数 / 测试集中存在的个体总数 F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率)示例不妨举这样一个例子:某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。Sea转载 2016-06-02 09:45:14 · 816 阅读 · 0 评论