![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理NLP
qq_30468133
这个作者很懒,什么都没留下…
展开
-
[python] 使用scikit-learn工具计算文本TF-IDF值
在文本聚类、文本分类或者比较两个文档相似程度过程中,可能会涉及到TF-IDF值的计算。这里主要讲述基于Python的机器学习模块和开源工具:scikit-learn。 希望文章对你有所帮助,相关文章如下: [python爬虫] Selenium获取百度百科旅游景点的InfoBox消息盒 Python简单实现基于VSM的余弦相似度计算 基于V...原创 2018-06-08 20:42:12 · 523 阅读 · 0 评论 -
seq2seq中的beam search算法过程
首先说明在sequence2sequence模型中,beam search的方法只用在测试的情况,因为在训练过程中,每一个decoder的输出是有正确答案的,也就不需要beam search去加大输出的准确率。假设现在我们用机器翻译作为例子来说明。我们的任务是翻译中文“我是中国人”--->英文“I am Chinese”假设我们的词表大小只有三个单词就是I am Chinese。...原创 2019-02-22 23:13:25 · 829 阅读 · 0 评论 -
如何轻松愉快地理解条件随机场(CRF)?
理解条件随机场最好的办法就是用一个现实的例子来说明它。但是目前中文的条件随机场文章鲜有这样干的,可能写文章的人都是大牛,不屑于举例子吧。于是乎,我翻译了这篇文章。希望对其他伙伴有所帮助。原文在这里[http://blog.echen.me/2012/01/03/introduction-to-conditional-random-fields/]想直接看英文的朋友可以直接点进去了。...原创 2019-01-28 16:52:30 · 141 阅读 · 0 评论 -
convert a list of tensor into a array 为了后续操作方便
import torchimport numpy as npt1=torch.tensor([1,2])t2=torch.tensor([3,4])t3=torch.tensor([5,6])list_test=[t1,t2,t3] #a list of tensorall_list=list_testtemp=[t.numpy() for t in all_list] # co...原创 2019-01-17 21:29:16 · 222 阅读 · 0 评论 -
pytorch 中的Variable
tensor是PyTorch中的完美组件,但是构建神经网络还远远不够,我们需要能够构建计算图的tensor,这就是Variable。Variable是对tensor的封装,操作和tensor是一样的,但是每个Variable都有三个属性,Variable中的tensor本身.data,对应tensor的梯度.grad以及这个Variable是通过说明方式得到的.grad_fn # 通...原创 2019-01-04 15:26:33 · 332 阅读 · 0 评论 -
LSTM和GRU原理及pytorch代码,输入输出大小说明
这大概是我见到的最新清脱俗的LSTM公式了:#RNNrnn=nn.RNN(10,20,2) #(each_input_size, hidden_state, num_layers)input=torch.randn(5,3,10) # (seq_len, batch, input_size)h0=torch.ra...原创 2018-12-25 11:14:08 · 22553 阅读 · 3 评论 -
seq2seq
以下为漫谈,即瞎聊,利用通俗的语言来谈谈神经网络模型中4种序列解码模型,主要是从整体概念和思路上进行通俗解释帮助理解。预警,以下可能为了偷懒就不贴公式了,一些细节也被略过了,感兴趣的可以直接去阅读原文[1][2][3]。[1] Sequence to Sequence Learning with Neural Networks[2] Learning Phrase Representatio...原创 2019-01-04 11:00:41 · 165 阅读 · 0 评论 -
pytorch中squeeze()和unsqueeze()函数介绍
https://blog.csdn.net/flysky_jay/article/details/81607289原创 2018-12-18 19:30:38 · 4366 阅读 · 0 评论 -
pytorch中embedding词嵌入的作用
Embedding词嵌入在 pytorch 中非常简单,只需要调用 torch.nn.Embedding(m, n) 就可以了,m 表示单词的总数目,n 表示词嵌入的维度,其实词嵌入就相当于是一个大矩阵,矩阵的每一行表示一个单词。emdedding初始化默认是随机初始化的import torchfrom torch import nnfrom torch.autograd i...原创 2018-12-18 19:21:28 · 3112 阅读 · 0 评论 -
python中的list如何进行相减操作或者将list分片,即list加减
问题描述:假设我有这样两个list, 一个是list1,list1 = [1, 2, 3, 4, 5] 一个是list2,list2 = [1, 4, 5] 我们如何得到一个新的list,list3, list3中包括所有不在list2中出现的list1中的元素。 即:list3 = list1 - list2 ...原创 2018-12-09 21:25:03 · 14043 阅读 · 0 评论 -
readlines()注意事项
readline()是每次读一行,下次调用的时候就是读取的下一行readlines()相当于一次读取所有行,读取之后原变量就空了,因为没有下一行了。all_symtoms1=open("all_symtoms.txt","r")test1=all_symtoms1.readlines()test2=all_symtoms1.readlines()print(len(test1))...原创 2018-12-09 19:17:02 · 3884 阅读 · 0 评论 -
file.readlines()将多行合并为一行
file=open("data/dxy/final_result.txt",encoding="utf-8")lines=file.readlines()#形成一个列表,每行是一个元素print(lines[0])print(int(len(lines)/3))for i in range(int(len(lines)/3)): print(i) correc...原创 2018-11-15 15:50:22 · 761 阅读 · 0 评论 -
语义相似度的计算方法
词语的语义相似度计算主要有两种方法 :一类是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;另一类主要是通过词语上下文的信息,运用统计的方法进行求解。 1. 语义相似度Dekang Lin认为任何两个词语的相似度取决于它们的共性(Commonality)和个性(Differences),然后从信息论的角度给出了定义公式:其中,分子表示描述A,B共性所需要的信息量;分母表示完整地描述A,...转载 2018-06-08 20:42:20 · 9796 阅读 · 0 评论 -
维特比viterbi算法
先举个例子来解释从前有个村儿,村里的人的身体情况只有两种可能:健康或者发烧。假设这个村儿的人没有体温计或者百度这种神奇东西,他唯一判断他身体情况的途径就是到村头我的偶像金正月的小诊所询问。月儿通过询问村民的感觉,判断她的病情,再假设村民只会回答正常、头晕或冷。有一天村里奥巴驴就去月儿那去询问了。第一天她告诉月儿她感觉正常。第二天她告诉月儿感觉有点冷。第三天她告诉月儿感觉有点头晕。...原创 2019-05-17 15:16:51 · 1244 阅读 · 0 评论