NLP
文章平均质量分 92
*Snowgrass*
主要记录一些技术知识点,并转载一些好技术文章,仅作为学习笔记。若内容有欠缺、不恰当处,欢迎指正。
展开
-
图解BERT模型:从零开始构建BERT
如下图所示,Attention机制将目标字和上下文各个字的语义向量表示作为输入,首先通过线性变换获得目标字的Query向量表示、上下文各个字的Key向量表示以及目标字与上下文各个字的原始Value表示,然后计算Query向量与各个Key向量的相似度作为权重,加权融合目标字的Value向量和各个上下文字的Value向量,作为Attention的输出,即:目标字的增强语义向量表示。在此基础上,神经网络会将文本中各个字或词的一维词向量作为输入,经过一系列复杂的转换后,输出一个一维词向量作为文本的语义表示。转载 2024-05-15 15:19:39 · 443 阅读 · 0 评论 -
词嵌入(word embedding)
举个例子,我们可以把“苹果”这个单词映射成一个向量[0.2, 0.9, -0.1, ...],把“香蕉”映射成[0.5, -0.3, 0.8, ...],这样计算机在看到向量[0.2, 0.9, -0.1, ...]时,就能够理解这个单词是“苹果”了。如果我们只是用数字表示,那么计算机只能知道它们是不同的单词,无法确定“猫”和“狗”更接近,还是“鱼”和“跑”更接近,因为他们之间的数值都相差1。这需要专门的模型来处理,比如。我们知道,计算机在处理任何形式的数据时,处理的都是数字,更极端点处理的都是。转载 2024-05-14 10:21:13 · 77 阅读 · 0 评论 -
jieba之TF-IDF和TextRank提取关键词
使用结巴提取关键词,有两种方法可以调用,1:TD-IDF;2:TextRank。下面实现,利用结巴的analyse包进行对应的算法调用,实现关键词提取import jieba.analysetfidf = jieba.analyse.extract_tagstextrank = jieba.analyse.textranktext = "许多中产阶级家庭家长们都受过一定的教育,...原创 2020-01-03 14:31:50 · 747 阅读 · 0 评论 -
textrank4zh获取关键词和摘要
一、安装pip install textrank4zh==0.3下面对文本数据进行关键词获取及摘要提取。二、关键词和摘要提取文本: text = "许多中产阶级家庭家长们都受过一定的教育,对于孩子学习生活会有全新的想法。于是送孩子读国际学校走出国门留学的道路成为中产阶级的不二选。前几日圈圈总结了北京上海各大国际学校的学费详情请戳。看完了上海国际学校的费用,不少家...原创 2020-01-03 14:14:15 · 476 阅读 · 0 评论 -
pytlp安装及使用
目录安装pyltp分句分词标注集词性标注集命名实体识别标注集依存句法关系语义角色类型安装pyltppip install pyltp总是报错,因而使用.whl文件安装,很快解决问题。首先下载文件:pyltp-0.2.1-cp36-cp36m-win_amd64.whl下载链接:https://pan.baidu.com/s/14CG12r35UqGo...原创 2020-03-25 09:07:30 · 886 阅读 · 3 评论 -
Anconda用pip install pynlpir安装的Pynlpir 报错:Pynlpir分词License过期问题
pynlpir主要的功能有中文分词,标注词性和获取句中的关键词。主要函数主要用到的函数有两个:pynlpir.segment(s,pos_tagging=True,pos_names='parent',pos_english=True) pynlpir.get_key_words(s,max_wo...原创 2019-11-19 10:33:54 · 1324 阅读 · 0 评论 -
北京大学开源分词器pkuseg
1.默认模型及默认词典分词(默认使用预模型msra)。import pkusegseg = pkuseg.pkuseg() #以默认配置加载模型text = seg.cut('南京市长江大桥,叙利亚东古塔地区,俄外交部') #进行分词print(text)['南京市', '长江', '大桥', ',', '叙利亚', '东古塔', '地区', ',', '俄', '外交部']2....原创 2019-11-11 18:10:59 · 284 阅读 · 0 评论 -
阿里云NLP接口调用
环境:win10 python3.6 利用python调用阿里云NLP接口,看阿里云官网的,写在这里备忘。# -*- coding: utf8 -*-import uuidimport aliyunsdkcorefrom aliyunsdkcore.client import AcsClientfrom aliyunsdkcore.request import ...原创 2019-10-30 16:53:49 · 2269 阅读 · 0 评论 -
调用华为云NLP接口(Postman)
一、账号本身获取TokenToken是用户的访问令牌,承载了用户的身份、权限等信息,用户调用API接口时,需要使用Token进行鉴权。编辑获取用户Token接口的Request URL、Header、Body,进行具体的API调用。以下结合内容,展示利用Postman调用实例,。Request URL格式为:https://IAM地区与终端节点地址/API接口URI1.访问...原创 2019-10-15 20:36:08 · 912 阅读 · 0 评论 -
中文繁体与简体字转换
在Win10、Python3.6环境下,调用包,将繁体中文字转为简体字。方法一:pip install snownlp调用snownlp包进行转换。from snownlp import SnowNLPs = SnowNLP('環境很惡劣')s.han Out: '环境很恶劣'方法二:下载 zh_wiki.py 和 langconv.py 两个文件,放到pyt...原创 2019-10-11 10:37:34 · 1242 阅读 · 0 评论 -
jieba 分词词性-1
目录jieba分词词性分类1. 名词 (1个一类,6个二类,5个三类)2. 时间词(1个一类,1个二类)3. 处所词(1个一类)4. 方位词(1个一类)5. 动词(1个一类,7个二类,2个四类)6. 形容词(1个一类,4个二类)7. 区别词(1个一类,2个二类)8. 状态词(1个一类)9. 代词(1个一类,4个二类,6个三类)10. 数词(1个一类,1个...原创 2019-09-25 13:52:50 · 1183 阅读 · 0 评论 -
jieba分词词性
jieba词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjective的第1个字母。 ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并...原创 2019-09-25 13:42:48 · 913 阅读 · 0 评论 -
过滤文本中的中英文标点符号、字母、数字、表情
目录1.过滤中文标点符号2.过滤英文标点符号3.过滤大小写字母4.过滤数字5.过滤中英文标点符号、字母及数字6.过滤表情1.过滤中文标点符号import reimport zhonfrom zhon.hanzi import punctuation#过滤中文标点符号def filter_punc(desstr,restr=''): patt...原创 2019-08-10 13:51:25 · 3460 阅读 · 0 评论 -
text.Tokenizer类
keras提供的预处理包keras.preproceing下的text与序列处理模块sequence模块1. text模块提供的方法text_to_word_sequence(text,fileter) 可以简单理解此函数功能类str.split one_hot(text,vocab_size) 基于hash函数(桶大小为vocab_size),将一行文本转换向量表示(把单词数字化,vo...原创 2019-08-14 14:01:44 · 651 阅读 · 0 评论 -
Word2vec 中文词向量训练
Word2vector 中文词向量训练代码1:# -*- coding: utf-8 -*-from gensim.models import Word2Vecfrom gensim.models.word2vec import LineSentencetxtpath = "corpus.txt"# 输入语料文件with open(txtpath,'r',encoding='...原创 2019-08-07 09:42:02 · 1082 阅读 · 0 评论