页面有限,我总结的词典已放在了git,欢迎download和star:
https://gitee.com/aiainui/NLP_base_data
停用词表
https://github.com/goto456/stopwords
中文编码范围
[\u4e00-\u9fa5]
latex关键词参考
https://www.latexlive.com/help
英语字母中文读音
A 诶
B 闭
C 斯一
D 第
E 易
F 哎 服
G 记
H 诶 齿
I 艾
J 这诶
K 可诶
L 艾 哦
M 艾木
N 恩
O 哦
P 匹
Q 克油
R 啊 儿
S 艾斯
T 踢
U 一哦/呦
V 微
W 达 不 溜
X 艾 克 斯
Y 挖诶
Z 贼
中文模糊音
#声母模糊音:
s <--> sh,c<-->ch,z <-->zh,l<-->n,f<-->h,r<-->l,
#韵母模糊音:
an<-->ang,en<-->eng,in<-->ing,ian<-->iang,uan<-->uang。
#组合模糊音:
fa <-->hua,fan <-->huan,fang <-->huang,fei <--> hui,fen <--> hun,feng <-->hong,fo <-->huo,fu <-->hu
进一步了解见:http://www.pinyin.info/rules/initials_finals.html
阿拉伯数字与中文对照词典
见:https://github.com/aiainui/NLPToollet
繁体简体对照词典
见:https://github.com/aiainui/NLPToollet
语气词( 参见百度百科):
#1.辅音 单音节
吧|罢|呗|啵|的|价|家|啦|来|唻|了|嘞|哩|咧|咯|啰|喽|吗|嘛|嚜|么|哪|呢|呐|否|呵|哈|不|兮|般|则|连|罗|给|噻|哉|呸|
#2.辅音 多音节
罢了|不成|得了|而已|的话|来着|了得|也罢|已而|着呢|着哩|着呐|来的|也好|便了|起见|就是|似地|是的|一般|一样|再说|不过
#2.元音
阿|啊|呃|欸|哇|呀|也|耶|哟|欤|呕|噢|呦|嘢
标点符号(参见百度百科)
#常见中文标点
。| ?| !|,|、|;|:
#常见中文标点
s = re.sub("[。?!,、;:“”‘'()《》〈〉【】『』「」﹃﹄〔〕…—~﹏¥-]", "", s)
#进一步了解见百度百科
#常见英文标点
.|?|!|,|、|;|:
#常见英文标点
s = re.sub("[\[\`\~\!\@\#\$\^\&\*\(\)\=\|\{\}\'\:\;\'\,\[\]\.\<\>\/\?\~\!\@\#\\\&\*\%]", "", s)
#进一步了解见:https://zhuanlan.zhihu.com/p/27008015
ps:小伙伴们,若有其他词典欢迎贡献,若有其他词典需要欢迎咨询,请私信。
<<< 待续