alzy133-CSDN博客

原创快速导出conda依赖包以及pip依赖包

打比赛要求提交环境的requirements.txt，可以通过下面两行代码直接生成txtconda list -e > requirements.txtpip freeze > requirements.txt

2020-10-21 21:50:55 1582

原创 linux下解决pip ReadTimeouterror.

首先确定已经把pip源换为国内源了，但是由于网络不稳定还是会出现这个问题，和windows下解决方法其实是一致的：pip --default-timeout=100 install -U XXX

2020-10-14 17:00:36 315

原创问题解决 “No module named ‘pytest‘“

问题描述：在跑代码的时候报错 No module named ‘pytest’，这种报错一般是没安装对应的包，问题在于我程序中并没有import pytest，查了一下说py文件命名以test开头会导致pycharm默认以pytest模式运行，但是我这边程序命名也不是这种情况，修改了程序名也没有好。解决方案：点击Edit Configurations...

2020-09-26 22:30:42 26800 9

原创问题解决：json.dump使用时报错int64 is not jason serializable

最近在调试之前师兄写的一段代码，在运行的时候把dict类型的结果用json.dump储存为json类型报错，TypeError: Object of type ‘int64’ is not JSON serializable输出了一下result的结果发现是numpy.int，而json.dump不能识别numpy的数据类型，有两种方法可以解决，第一种是循环把result里的每个数都变成int类型result[i]['articles'] = [int(part) for part in article

2020-07-02 09:37:44 4275

原创论文阅读《Text Summarization with Pretrained Encoders》

看了一篇摘要的文章，用BERT去做摘要，主要展示了预训练模型可以给文本摘要带来提升，对于生成式摘要和抽取式摘要都做了实验，生成式摘要用BERT做Encoder，抽取式摘要直接把BERT当embedding用

2020-05-26 21:22:39 1393 1

翻译解决用Pandas处理csv,excel文件多出unnamed列问题

用read_csv, read_excel, to_csv, to_excel的时候会多出unnamed列，开始查到的方法是添加属性：df = pd.read_csv('data.csv', index_col=0)df = df.to_csv('data.csv', index=False)但是上面的代码对我这个无效，后来在stackoverflow上查到可以直接删除包含unname的字段，虽然感觉方法笨一点但是是有效的。 data = data.loc[:, ~data.columns.str

2020-05-26 10:15:07 11339 2

原创论文阅读《Aspect Level Sentiment Classification with Deep Memory Network》

这篇文章是比较早的一篇用深度学习处理ASC的论文了，实验也用SVM做了baseline做比较，模型结构比较简单，主要由多个hops构成，每个Hops是一个Linear+attention

2020-05-21 20:36:08 253

原创解决jupyter notebook不同环境下引入包失败问题

本地有三个环境,root,pytorch,tensorflow但是切换到pytorch之后导入包总是不成功提示 No module named ‘xxx’原因是jupyter notebookz只会从默认的路径找包，不知道其他环境包所在位置，只需要加上路径import syssys.path.append('D:\\anaconda\\envs\\pytorch\\Lib\\site-p...

2020-05-07 19:48:18 1769 1

原创论文阅读《Progressive Self-Supervised Attention Learning for Aspect-Level Sentiment Analysis》

这篇文章也是针对aspect-level SA的一篇文章，其实准确的说更像一篇针对注意力机制的文章，提出了SA模型目前注意力机制的缺陷：过度注意高频词，忽略了低频次，本文用了两个技巧：第一个是迭代的mask注意力权重最大的词，第二个是加入了一个正则化项...

2020-04-20 21:50:11 419

原创论文阅读《An Interactive Multi-Task Learning Network for End-to-End Aspect-Based Sentiment Analysis》

这篇文章主要把aspect情感分析的两个任务（AS和AE）进行了多任务学习，主要用一个attn层实现AE辅助AS训练，以及引入DD,DS两个文档级别的分类任务进行辅助训练，同时提出了一个信息传递机制，每次迭代都会根据多任务的数据对最初提取的特征向量进行更新，这种信息传递机制实现了更好的多任务学习。...

2020-04-10 20:47:52 514

原创论文阅读《An Effective Approach to Unsupervised Machine Translation》

这篇文章是针对机器翻译一篇文章，感觉主要的创新点在于加入了子词(subword)信息，另外还有在训练的时候，消除了生成的平行语料库可能包括错误语法的短语问题。...

2020-04-09 20:29:41 333

原创论文阅读《Emotion-Cause Pair Extraction: A New Task to Emotion Analysis in Texts》

结构挺简单的，但是思路很有意思

2020-04-04 21:38:52 788

原创 Torchtext学习笔记

Torchtext是pytorch处理文本的一个工具包，在学习pytorch的过程中遇到，就顺便学习一下，也相应的做一下记录。我们在进行NLP任务时，对数据预处理一般分为：读入数据将数据one-hotone-hot to embedding用迭代器读入（一次性读入容易导致超出内存的问题）而Torchtext工作逻辑和平时处理数据是非常相似的，基本上可以完成这一系列工作。从torc...

2020-03-29 16:57:37 1445 1

alzy133的博客