自然语言处理
文章平均质量分 52
桉夏与猫
啥啥啥?这都是啥?
展开
-
OAG-BERT(开放式学术图谱BERT)
介绍:在CogDL库中有两个版本的OAG-BERT,OAG-BERT是一个异构的实体增强学术语言模型,它不仅能够理解学术文本,还能够理解OAG中的异构实体知识。论文原文:《OAG-BERT: Pre-train Heterogeneous Entity-augmented Academic Language Model》版本1:普通版本这是一个基本版本的 OAG-BERT。与 SciBERT (opens new window) 类似,我们在 Open Academic Grap原创 2022-01-10 13:52:02 · 1504 阅读 · 0 评论 -
NLTK库——词形还原(Lemmatization)
词形还原(Lemmatization)词性还原,又称为Lemmatizetion主要是把单词的词缀部分除去,从而得到单词的词干部分词形还原(Lemmatization)与词干提取(stemming)的区别词形还原是把单词还原成本身的形式:比如将‘cars’还原成car,把‘ate’还原成‘eat’,把‘handling’还原成‘handle’词干提取则是提取单词的词干,比如将‘cars’提取出‘car’,将‘handling’提取出来‘handl’(单纯的去掉ing),对于‘ate’使用原创 2021-05-12 20:39:04 · 10056 阅读 · 4 评论 -
文本处理工具,去除重复的元素
def remove_duplicate(x): # 0 is flag for plain text word occur = set() return_list = [] for i in x: if i == 0 or i not in occur: return_list.append(i) occur.add(i) return return_listflag = [0, 1, 1, 0,.原创 2021-05-09 21:09:30 · 223 阅读 · 0 评论 -
英文文本关键词抽取——使用NLTK进行关键词抽取
记录一下代码:"""__author__:shuangrui Guo__description__:"""import sysimport nltkimport jsonfrom tqdm import tqdm#多进程的包import multiprocessingimport argparseimport osimport reSUFFIX_NLTK = '__nltk.json'#清洗文本def clean_text(text): text = re.sub原创 2021-04-21 15:22:37 · 3838 阅读 · 2 评论 -
Python——判断字符串(是否包含中文)与(是否全部由中文组成)
原理中文字符编码范围:\u4e00 - \u9fff方法#判断字符串是否包含中文def str_contain_chinese(str): for ch in str: if u'\u4e00'<=ch<=u'\u9fff': return True return False原创 2021-04-13 20:17:36 · 4091 阅读 · 0 评论 -
TF-IDF(词频-逆文档频率)使用sklearn实现
在获取单词的TF-IDF值的时候,可以选用已有的库来实现,而不用再去手动去写。这里使用sklearn中提供的已有的方法来获取TF-IDF:TfidfVectorizer类class sklearn.feature_extraction.text.TfidfVectorizer(*, input='content', encoding='utf-8', decode_error='strict', strip_accents=None, lowercase=True, preproc原创 2021-04-11 18:17:20 · 1766 阅读 · 2 评论 -
TF-IDF(词频-逆文档频率)介绍与python实现
TF-IDF(term frequency—inverse document frequency)TF-IDF介绍TF-IDF(词频-逆文档频率)是一种用于信息检索(Information retrieval)与数据挖掘(data mining)常用的加权技术TF-IDF是一种统计方法,用来评估单词或短语对于一个语料库的重要程度,它两部分组成:TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)主要思想:单词或短语的重要性原创 2021-04-09 11:30:25 · 5649 阅读 · 0 评论