python拼音检查

最新推荐文章于 2022-09-09 12:26:23 发布

best啊李

最新推荐文章于 2022-09-09 12:26:23 发布

阅读量1k

点赞数 1

import re
from collections import Counter

#编辑距离为1的
def editer1(word):
    letters = 'abcdefghijklmnopqrstuvwxyz'
    splits = [(word[:i],word[i:]) for i in range(len(word) + 1) ]
    delete = [ L + R[1:] for L,R in splits if R]
    transtore = [ L + R[1] + R[0] + R[2:] for L,R in splits if len(R)>1]
    inserts = [ L + c + R for L,R in splits for c in letters]
    replaces = [ L + c + R[1:] for L,R in splits if R for c in letters]
    return set(delete + transtore + inserts + replaces)
#编辑距离为2的
def editer2(word):
    return set(e2 for e1 in editer1(word) for e2 in editer1(e1))

#读取文本
def loadData(filename):
    with open(filename) as file:
        text = file.read()
        data = re.findall(r'[a-z]+',text.lower())  #所有的字符
    return data
data = loadData('big.txt')
Words = Counter(data)

def know(words):  #找出words中所有在Words里面的词
    return set(word for word in words if word in Words)

#可能词的集合
def candicate(word):
    return (know([word]) or know(editer1(word)) or know(editer2(word)) or [word])

#词频
def p(word,N = sum(Words.values())):
    return Words[word] /float(N)

#找词频最大的
def correct(word):
    return max(candicate(word) ,key = p) #第一个是P所需要的参数

#原理：查找与word相近的所有词，依次查找原词，or 编辑距离为1，or编辑距离为2，如果有原词，就不会查找距离为1，2的，如没有则查找距离为1的，统计距离为1的所有词在词汇表中出现的概率，选择最大的即为最有可能的词

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

best啊李

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python怎么识别拼音-python识别一段由字母组成的字符串是否是拼音

weixin_37988176的博客

11-01

981

环境：win10 python3.6先说一下算法思想：首先建立本地拼音库(不带声调)。使用逆向最大匹配将字符串与本地拼音库(这里提供给大家一个)进行匹配。话不多说，见code：def pinyin_or_word(string):'''judge a string is a pinyin or not.pinyinLib comes from a txt file.'''max_len = 6 ...

python怎么识别拼音-python+拼音

weixin_37988176的博客

11-01

1711

广告关闭2017年12月，云+社区对外发布，从最开始的技术博客到现在拥有多个社区产品。未来，我们一起乘风破浪，创造无限可能。如果没有相应的库通过如下命令安装命令：pip install xpinyin 截图：? 2.相关示例示例代码： #! usrbinpython from xpinyin import pinyin pin = pinyin() #默认分割符为- test1 =pin.ge...

参与评论您还未登录，请先登录后发表或查看评论

python怎么识别拼音-python获取一组汉字拼音首字母的方法

weixin_37988176的博客

11-01

558

本文实例讲述了python获取一组汉字拼音首字母的方法。分享给大家供大家参考。具体实现方法如下：#!/usr/bin/env python# -*- coding: utf-8 -*-def multi_get_letter(str_input):if isinstance(str_input, unicode):unicode_str = str_inputelse:try:unicode_st...

python识别一段由字母组成的字符串是拼音还是英文单词

weixin_30483013的博客

05-01

2787

环境：win10 python3.6 先说一下算法思想：首先建立本地拼音库(不带声调)。使用正向最大匹配将字符串与本地拼音库(这里提供给大家一个)进行匹配。话不多说，见code：下面是python代码： def pinyin_or_word(string): ''' judge a string is a pinyin or a english word. pinyin...

python正则匹配-匹配汉字，拼音，标点符号

python_tty的专栏

05-18

5694

最近做需求需要把一段带有拼音的段落分割成汉字，拼音，标点符号。正则匹配的表达式修正了很多次，才完美的匹配出所有的内容。完整的表达式： r'[\u4e00-\u9fa5]|[Aa-zZāáǎàōóǒòēéěèīíǐìūúǔùüǖǘǚǜńňǹḿmɡ]*[0-4]{0,1}|[a-zA-Z0-9_]|[\W]' 汉字表达式：[\u4e00-\u9fa5] 拼音表达式：[Aa-zZāáǎàōóǒòēéěèīíǐìūúǔùüǖǘǚǜńňǹḿmɡ]*[0-4]{0,1} 字符表达式：[a-zA-Z0-9_] 包含中

python汉语意思-python汉语谐音

weixin_37988176的博客

10-30

1395

广告关闭2017年12月，云+社区对外发布，从最开始的技术博客到现在拥有多个社区产品。未来，我们一起乘风破浪，创造无限可能。上面介绍beautifulsoup的特点时说到了，beautifulsoup支持python标准库的解析器html5lib，纯python实现的。除此之外，beautifulsoup还支持lxml解析器..."beautifulsoup: we called hi...

python拼写检查_python中的languagetool语法和拼写检查器

weixin_26720549的博客

10-15

3043

python拼写检查语言工具(LanguageTool) LanguageTool is an open-source grammar tool, also known as the spellchecker for OpenOffice. This library allows you to detect grammar errors and spelling mistakes through ...

python获取一组汉字拼音首字母的方法

09-21

### Python 获取一组汉字拼音首字母的方法在进行中文文本处理时，经常需要将汉字转换为拼音或拼音的首字母，特别是在姓名识别、排序或者搜索功能的实现上。本篇文章将详细介绍如何利用Python来获取一组汉字的拼音...

python 拼音相似度_Python实现简单的文本相似度分析操作详解

weixin_26801149的博客

02-03

483

本文实例讲述了Python实现简单的文本相似度分析操作。分享给大家供大家参考，具体如下：学习目标：1.利用gensim包分析文档相似度2.使用jieba进行中文分词3.了解TF-IDF模型环境：Python 3.6.0 |Anaconda 4.3.1 (64-bit)工具：jupyter notebook注：为了简化问题，本文没有剔除停用词“stop-word”。实际应用中应该要剔除停用词。首先引...

python去除拼音声调字母,替换为字母的方法

09-19

### Python去除拼音声调字母，替换为字母的方法在处理中文文本时，有时我们需要去除拼音中的声调，以便进行统一的处理或者便于某些特定的应用场景。例如，在进行文本搜索、关键词提取或数据清洗等任务时，去除声调...

python拼音识别多音字的包_一个有意思还有用的Python包-汉字转换拼音

weixin_35196909的博客

01-15

2277

作者：小伍哥来源：AI入门学习一、应用概述最近做一个项目，发现很多场景，把汉字转换成拼音，然后进行深度学习分类，能够取得非常不错的效果，在做内容识别，特别是涉及到同音字的时候，转换成拼音就显得特别重要。比如垃圾广告识别：公众号、工仲号、躬总号，公众號、微信、威信、维伈.........，pypinyin是我用的一个比较好用的包是给大家分享下，当然，在其他很多场景也是可以使用的，排序、检索等等场合。...

python得读音_Python 返回汉字的汉语拼音

weixin_39562089的博客

11-23

235

后来想到自己Delphi有一个获得拼音的代码。于是找了出来。研究了一下代码如下：代码如下:function get_hz_pywb(hzstr: string; pytype: integer): string;varI: Integer;allstr: string;hh: THandle;pp: pointer;ss: TStringList;function retturn_wbpy(tem...

Python中拼音库PyPinyin的使用

lijibai_的博客

01-28

1万+

pypinyin库是一个支持中文转拼音输出的python第三方库，它可以根据词组智能匹配最正确的拼音，并且支持多音字，简单的繁体, 注音，多种不同拼音/注音风格。 PyPinyin库的安装与引用安装可以在cmd下输入： pip install pypinyin 在pycharm中：打开 settings（设置），打开 Project Interpreter ，点击 + 号，搜索 pypinyin ，install Package即可引用本库的引用需要具体引入第三方库中的具体方法才

python怎么用拼音-Python利用拼音库PyPinyin获取汉字的拼音

weixin_37988176的博客

11-01

3336

我们可以利用python的PyPinyin库来获取汉字的拼音，我们先来写一个简单的案例import pypinyinprint(pypinyin.pinyin( "小宁博客"))# [['xiǎo'], ['níng'], ['bó'], ['kè']]是不是很简单呢，我们只用了两行代码就实现了最基础的汉字转拼音。要是多音字怎么办呢？这里PyPinyin也给我们做了处理了fro...

python-获取汉字注音

北冥有鱼的博客

09-09

2319

FINALS_TONE2 = 韵母风格，带声调，声调在各个韵母之后，用数字 [1-4] 进行表示。FINALS_TONE3 = 韵母风格，带声调，声调在各个拼音之后，用数字 [1-4] 进行表示。TONE2 = 声调风格，即拼音声调在各个韵母之后，用数字 [1-4] 进行表示。TONE3 = 声调风格，即拼音声调在各个拼音之后，用数字 [1-4] 进行表示。FINALS_TONE = 标准韵母风格，带声调，声调在韵母第一个字母上。FINALS = 韵母风格，只返回各个拼音的韵母部分，不带声调。

学点实用工作小技巧【Python】汉字转拼音、繁体字和简体字互转、提取字符串中的中文（英文）、判断是否纯中文（英文）