nlp
文章平均质量分 92
try_trying_try
努力努力x努力
展开
-
Trm和bert源码
李理blogtrm 代码annotated trm github原创 2020-10-10 15:23:58 · 454 阅读 · 0 评论 -
中文文本纠错
小知识点"u4e00"代表什么意思 "u9fa5“代表什么意思?答:\u4e00-\u9fa5是用来判断是不是中文的一个条件,采用的是unicode编码参考website2020/9/1最全面,精华 中文纠错 待看完 中文文本拼写检查错误纠正方案整理关联pycorrector小练习#--------------简化import pandas as pd # for data manipulation and analysisfrom openpyxl import原创 2020-09-01 15:01:41 · 1368 阅读 · 1 评论 -
nltk系列:Lemmatisation和Stemming(NLTK pos_tag word_tokenize)
英文文本预处理总结非常好的blogLemmatisation和Stemming(NLTK pos_tag word_tokenize)#方法一from nltk.stem import WordNetLemmatizerdef lemmatize_all(sentence): #Input:sentence wnl=WordNetLemmatizer() for word,tag in pos_tag(word_tokenize(sentence)): #分词+词性标注原创 2020-08-04 15:53:44 · 846 阅读 · 0 评论 -
NLP之:中文分词-Viterebi alg
Viterebi—Solu: DP中文分词**Part1 分词:**句子all可能的划分方式划分出来方法一;基于枚举方式 #recursive_fengcidef full_segmentation(input_str, words): #words:词典库 if input_str=='': return [[]] else: result =[] for i in range(len(input_str)+1): #一直到空字原创 2020-08-03 22:15:36 · 143 阅读 · 0 评论 -
Anaconds3安装jieba 用于pycharm
1、从官网下载jieba压缩包https://pypi.org/project/jieba/2、将压缩包解压到anaconda的pkgs目录。(譬如我的如下3、打开anaconda prompt参考:https://blog.csdn.net/xavier_muse/article/details/94440563?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecas原创 2020-05-11 15:27:03 · 188 阅读 · 0 评论 -
punkt手动安装
在线安装punkt会报错,连接错误;选择手动自己先下载下来,解压;然后放到python3指定搜索目录之一下面,重新加载python3,即可成功。适用于python3。链接:https://pan.baidu.com/s/1F_NoE-JBKgLTuuOlN2rfjw提取码:f94w...原创 2020-05-01 09:54:39 · 2995 阅读 · 2 评论