在线中文文字纠错错别字检测云服务

在线中文文字纠错错别字检测云服务

2020-07-26更新:JCJC错别字识别软件客户端发布了

详情:https://blog.csdn.net/proofreading/article/details/51637364

 

JCJC错别字检测软件


JCJC人工智能错别字检测系统( cuobiezi.net )上线已经15个月了。

我们已经推出了:Java 、Python、C# 、JavaScript 的API,并把演示接口的源代码放在了 GitHub 上 https://github.com/textproofreading  。

回顾过去 15 个研发的艰辛历程,还是颇有感慨的。期间两位朋友不约而同的对我说:创业者应该支持创业者 , 并把这个项目引进到他们公司中使用, 给予了我很大的信心支持。

“创业者应该支持创业者”,这句话一下子让我想起 1935 年,徐向前元帅说的:“天下哪有红军打红军的道理”。有时候朋友间一些小的支持,一些无意间说出的话,会激励你,让你不敢辜负对方的期望,努力做好服务。

2018年,我们几位小伙伴准备推出:在线中文文字纠错云服务 , 主打功能是: 错别字检测 。

希望在2018年里,能不负所托,用更低的价格,服务更广大的用户。

2018年,我们会努力做的更好!

 

 

 

 

 

 

 

 

 

 

 

以下是基于Python实现中文错别字纠错的方法: 1. 基于jieba分词和中文词典技术实现中文文本纠错。具体步骤如下: a. 使用jieba分词将文本分成词语。 b. 对于每个词语,使用中文词典查找其是否存在,如果不存在,则认为该词语是错误的。 c. 对于错误的词语,使用编辑距离算法计算其与所有正确词语的距离,并选择距离最小的正确词语作为纠错后的词语。 d. 将所有纠错后的词语拼接成纠错后的文本。 代码实现如下: ```python import jieba import Levenshtein # 加载中文词典 words = set() with open('chinese_dictionary.txt', 'r', encoding='utf-8') as f: for line in f: words.add(line.strip()) def correct_text(text): # 分词 words = jieba.lcut(text) # 纠错 corrected_words = [] for word in words: if word not in words: # 计算编辑距离 distances = [(Levenshtein.distance(word, w), w) for w in words] # 选择距离最小的词语 corrected_word = min(distances)[1] else: corrected_word = word corrected_words.append(corrected_word) # 拼接纠错后的文本 corrected_text = ''.join(corrected_words) return corrected_text ``` 2. 基于深度学习的方法实现中文错别字纠错。具体步骤如下: a. 构建一个基于LSTM的序列到序列模型。 b. 使用大量的正确文本和错误文本训练模型。 c. 对于输入的错误文本,使用模型预测其正确文本。 代码实现如下: ```python import tensorflow as tf from tensorflow.keras.layers import Input, LSTM, Dense from tensorflow.keras.models import Model # 构建模型 input_seq = Input(shape=(None, num_encoder_tokens)) encoder_lstm = LSTM(latent_dim, return_state=True) encoder_outputs, state_h, state_c = encoder_lstm(input_seq) encoder_states = [state_h, state_c] decoder_inputs = Input(shape=(None, num_decoder_tokens)) decoder_lstm = LSTM(latent_dim, return_sequences=True, return_state=True) decoder_outputs, _, _ = decoder_lstm(decoder_inputs, initial_state=encoder_states) decoder_dense = Dense(num_decoder_tokens, activation='softmax') decoder_outputs = decoder_dense(decoder_outputs) model = Model([input_seq, decoder_inputs], decoder_outputs) # 训练模型 model.compile(optimizer='rmsprop', loss='categorical_crossentropy') model.fit([encoder_input_data, decoder_input_data], decoder_target_data, batch_size=batch_size, epochs=epochs, validation_split=0.2) # 预测 encoder_model = Model(input_seq, encoder_states) decoder_state_input_h = Input(shape=(latent_dim,)) decoder_state_input_c = Input(shape=(latent_dim,)) decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c] decoder_outputs, state_h, state_c = decoder_lstm( decoder_inputs, initial_state=decoder_states_inputs) decoder_states = [state_h, state_c] decoder_outputs = decoder_dense(decoder_outputs) decoder_model = Model( [decoder_inputs] + decoder_states_inputs, [decoder_outputs] + decoder_states) def correct_text(text): # 编码输入文本 input_seq = np.zeros((1, max_encoder_seq_length, num_encoder_tokens), dtype='float32') for t, char in enumerate(text): input_seq[0, t, input_token_index[char]] = 1. # 解码器的初始状态来自编码器的最终状态 states_value = encoder_model.predict(input_seq) # 生成一个长度为1的空目标序列 target_seq = np.zeros((1, 1, num_decoder_tokens)) # 将这个序列的第一个字符设置为开始字符 target_seq[0, 0, target_token_index['\t']] = 1. # 采样循环,生成目标序列的字符 stop_condition = False decoded_sentence = '' while not stop_condition: output_tokens, h, c = decoder_model.predict( [target_seq] + states_value) # 采样一个字符 sampled_token_index = np.argmax(output_tokens[0, -1, :]) sampled_char = reverse_target_char_index[sampled_token_index] decoded_sentence += sampled_char # 如果达到最大长度或者生成了停止字符,则停止 if (sampled_char == '\n' or len(decoded_sentence) > max_decoder_seq_length): stop_condition = True # 更新目标序列 target_seq = np.zeros((1, 1, num_decoder_tokens)) target_seq[0, 0, sampled_token_index] = 1. # 更新状态 states_value = [h, c] return decoded_sentence ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

JCJC错别字检测-田春峰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值