jcorrector 中文文本纠错工具

最新推荐文章于 2024-07-26 08:49:10 发布

石头木V2

最新推荐文章于 2024-07-26 08:49:10 发布

阅读量806

点赞数 3

文章标签： java 人工智能 nlp

本文链接：https://blog.csdn.net/qq_20182781/article/details/140705241

版权

jcorrector

项目地址：https://github.com/jiangnanboy/jcorrector

中文文本纠错工具。音似、形似错字（或变体字）纠正，可用于中文拼音、笔画输入法的错误纠正。项目为java开发，此项目参考了pycorrector，在此对作者表示感谢。

jcorrector依据语言模型检测错别字位置，通过拼音音似特征、笔画五笔编辑距离特征及语言模型句子概率值特征纠正错别字。

1.利用n-gram语言模型检测错别字位置，通过拼音音似特征、笔画五笔编辑距离特征及语言模型句子概率值特征纠正错别字。

2.利用深度学习模型（如macbert等）进行中文拼写纠错。

Guide

Question
Solution
Feature
Usage
Test
Dataset
Neural-Net
Todo
QQ
Cite
Reference

Question

中文文本纠错任务，常见

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

石头木V2

关注关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

中文文本纠错(Chinese Spell Checking, CSC)任务各个论文的评价指标

iioSnail的博客

02-18

3332

本文汇总了中文文本纠错(Chinese Spell Checking)任务在各个开源项目中的评价指标，他们虽然写法不同，但大部分本质是相同的，但也有少部分论文的评价指标存在问题或其他论文不一致，本文对他们的指标代码进行了分析，并说明了其中的问题。

pip install自己的代码_PyCorrector文本纠错工具实践和代码详解

weixin_39892311的博客

10-30

2339

PyCorrector文本纠错工具代码详解1. 简介 中文文本纠错工具。音似、形似错字（或变体字）纠正，可用于中文拼音、笔画输入法的错误纠正。python3.6开发。pycorrector依据语言模型检测错别字位置，通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。1.1 在线Demohttps://www.borntowin.cn/product/corrector1.2 Q...

参与评论您还未登录，请先登录后发表或查看评论

lstm 文本纠错_AI LIVE | 文本纠错技术探索和实践

weixin_39875832的博客

11-20

989

· 小PAI导读 ·「AI LIVE」是平安人寿AI团队打造的AI专业知识分享和学习专栏，将通过直播、沙龙等形式，分享平安寿险AI技术及创新成果，推动实现与AI领域同行共成长。本期「AI LIVE」将回顾我们在“AI研习社”直播间进行的主题为「文本纠错技术探索和实践」的技术分享，由平安人寿AI团队高级算法工程师陈乐清老师主讲。为了让大家能够快速get本期直播干货，小PAI特别整理了这篇直播内容文字...

java中文纠错_Java纠错

weixin_36286774的博客

02-25

825

importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;publicclassReversePrint{publicstaticvoidmain(String[]args)throwsIOException{for(;;)...import java.io.BufferedRead...

中文文本纠错

北落师门XY的博客

01-06

4437

常见错误原因及类型语音识别（ASR AutomaticSpeechRecognition）：谐音（眼镜->眼睛）、混淆音（流浪->牛郎）形近字：OCR｜五笔｜手写｜拼音（伍拾元->伍抬元，高粱->高梁）拼音全拼：shanghai->上海拼音缩写：sh->上海字词顺序颠倒字词补全语法错误一般流程错误识别生成纠正候选（召回率的保证）评价纠正候选（排序选择最可能的候选，当比原句优秀时才做纠错） pycorrector 安装：pip

利用java加载macbert进行中文拼写纠错

qq_20182781的博客

07-26

412

这里利用java加载macbert模型，并进行中文拼写纠错。

基于ERNIE的中文文本纠错

m0_63642362的博客

11-01

2176

pycorrector 文本纠错开源工具文本纠错开源工具 pycorrector 点击进入GitHub项目主页 pycorrector，主要用于音似、形似错字纠正，可用于输入法、OCR、ASR的文本错误纠正，兼容Kenlm语言模型纠错，和深度模型纠错，包括：Seq2Seq，Bert，MacBert，Electra，Ernie等。 pycorrector 项目当前在GitHub上star数2165，fork数565，watch数70。社区代码贡献者10位，项目引用数14个。今天来看下如何利用ERNI

智能文本自动处理（Intelligent text automatic processing）(一)

qq_20182781的博客

07-26

525

智能文本自动处理工具（Intelligent text automatic processing tool）。的功能主要有文本纠错，图片ocr以及表格结构识别等。

智能文本自动处理（Intelligent text automatic processing）(二)

最新发布

qq_20182781的博客

07-26

427

智能文本自动处理工具（Intelligent text automatic processing tool）。的功能主要有文本纠错，图片ocr以及表格结构识别等。结果，为表格单元格坐标以及单元格内的文本。结果图片展示图片OCR。结果，为表格单元格坐标。结果，为文字及其坐标。结果图片展示表格结构。

中文文本纠错之入门篇

zenRRan的博客

05-22

1202

每天给你送来NLP技术干货！来自：NLP日志提纲1简介2检测任务3纠正任务4总结参考文献1 简介在很多中文NLP相关的落地场景都会涉及到文本纠错的相关技术，例如跟各种形式机器人的语音或者文字对话，或者用手机扫描相关的PDF或者图片，或者跟人聊天时用输入法打字等等，无论是通过ASR识别的语音信息，通过OCR识别得到的图片信息，还是用户真实通过输入法的文字，都有可能出...

proofreadv1:中文文本自动纠错

05-09

中文文本自动纠错原因：在做智能家居的声控启动的时候发现，声音命令转化为文字的时候有时候会有问题，例如天气预报翻译成天汽预报，就想到了搜索引擎中的纠错功能,但是由于个人水平有限制，所以第一版本还不是很详细开发语言 python 如何使用 python main.py 系统原理：围绕着如何找出这段文字中是否有错误的字？找到了很多语料集，进行分词统计词频将待分析的文字的每一个字拆开放到一个数组中计算每一个字是否在词频字典中有，如果有说明这个字是对的二元语言模型与字典分词相结合的方法，命令Ui=WiWi+1(就是字符i和字符i+1结合起来的字符串在词频字典中的词频),假设一个字i不对，则 Ui=WiWi+1 ,Ui-1=Wi-1Wi Ui 和Ui-1都是0，说明这个词没有这种分词的存在，说明这次词是不对的目录结构 ├── checkproof.py ├── chineseproo

中文文本纠错算法实现

datayx的文章

07-02

6036

向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayx文本纠错又称为拼写错误或者拼写检查，由于纯文本往往来源于手打或者OCR识别，很可能存...

深圳面试java常见笔试题-pycorrector:错别字纠正算法。调用pycorrector接口，使用规则

06-13

深圳面试java常见笔试题 pycorrector 中文文本纠错工具。音似、形似错字（或变体字）纠正，可用于中文拼音、笔画输入法的错误纠正。python3开发。 pycorrector依据语言模型检测错别字位置，通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。问题 中文文本纠错任务，常见错误类型包括：谐音字词，如配副眼睛-配副眼镜混淆音字词，如流浪织女-牛郎织女字词顺序颠倒，如伍迪艾伦-艾伦伍迪字词补全，如爱有天意-假如爱有天意形似字错误，如高梁-高粱中文拼音全拼，如 xingfu-幸福中文拼音缩写，如 sz-深圳语法错误，如想象难以-难以想象当然，针对不同业务场景，这些问题并不一定全部存在，比如输入法中需要处理前四种，搜索引擎需要处理所有类型，语音识别后文本纠错只需要处理前两种，其中'形似字错误'主要针对五笔或者笔画手写输入等。解决方案规则的解决思路中文纠错分为两步走，第一步是错误检测，第二步是错误纠正；错误检测部分先通过结巴中文分词器切词，由于句子中含有错别字，所以切词结果往往会有切分错误的情况，这样从字粒度和词粒度两

中文文本纠错任务简介

zenRRan的博客

07-26

2087

每天给你送来NLP技术干货！来自：ChallengeHub最近在梳理中文文本纠错任务，文本根据搜集到的文章整理成的任务简介，在此先感谢大佬们分享的高质量资料。1任务简介中文文本纠错是针对中文文本拼写错误进行检测与纠正的一项工作，中文的文本纠错，应用场景很多，诸如输入法纠错、输入预测、ASR 后纠错等等，例如：写作辅助：在内容写作平台上内嵌纠错模块，可在作者写作时自动检查并...

语法型中文文本纠错方案探索

qq_44497995的博客

07-13

992

现在NLP的文本纠错还是以纠正拼写错误为主，本文章会对比几个具备语法纠错能力的中文模型，探索其在实际应用中的效果会如何。参与比对的模型或服务：Hanlp2.0文本纠错功能百度智能云高级纠错功能（其实还测过ModelScope-Large模型,能力和百度智能云持平）ChatGPT3.5模型蓝色为原文有错误的位置或模型进行修改的位置红色为模型进行修改的内容，若是写的删除则是要删掉前面的蓝色文字

java 分词文本纠错

liangc0910的博客

05-23

918

java,自然语言,分词，纠错，基于jieba分词和classifier4J的文本纠错算法

【人工智能】中文文本纠错-同音字纠错

xingxingzhilong的专栏

07-01

864

这个样本最重要的字段就是original_text、correct_text,其中original_text是错误样本，correct_text是对应的正确样本。基本的，在实践的过程中基本上是可行的，当然，需要全面地实现纠错任务，还需要准备更多的训练样本数据。例如，“他在做一件有意义的事情”中“做”误写为“作”。一整句话确实可以纠正出问题，那么我们看看这个错误的“健康”是否能正确纠正。纠正词语搭配不当，如动词和名词、形容词和名词之间的搭配错误。纠正标点符号的使用错误，如多余的标点、标点位置错误等。

中文拼写纠错_word-checker: Chinese and English word spelling corrector.(中文易错别字检测，中文拼写检测纠正。英文单词拼写校验工具)...

weixin_39561004的博客

12-28

871

项目简介本项目用于单词拼写检查。目前支持英文单词拼写检测，后期将引入中文拼写检测。特性说明支持英文的单词纠错可以迅速判断当前单词是否拼写错误可以返回最佳匹配结果可以返回纠正匹配列表，支持指定返回列表的大小错误提示支持 i18n支持大小写、全角半角格式化处理支持自定义词库v0.0.5 最新变更支持基本的中文拼写检测快速开始JDK 版本Jdk 1.7+maven 引入com.github.houbbw...

中文文本纠错系列之pipeline篇

zenRRan的博客

06-07

499

每天给你送来NLP技术干货！来自：NLP日志提纲1简介2 TM+LMM3 LMPS4 ACE5总结1 简介传统的文本纠错系统基本都是基于pipeline的，将分词，文本检测，文本纠正等模块等剥离开来，同时经常会在其中插入相应的规则模块，一环扣一环，如果生产流水线一样，依次执行，构成一个完整的系统。这种系统设计虽然直观，容易被人所理解，也方便人工介入去优化和排查...