NLP
雪糕cool
技术可以不牛逼,身材一定要好,要坚持哦✊
展开
-
文本分类-PyTorch
文本分类步骤一、文本预处理读取文本with open(os.path.join(folder_name, file), 'rb') as f: review = f.read().decode('utf-8').replace('\n', '').lower() data.append([review, 1 if label...原创 2020-02-26 22:06:50 · 541 阅读 · 0 评论 -
Transformer
目录重要性简介模型概览加入输入embeddingSelf-AttentionMulti-head Attention位置编码(Positional Encoding)Layer Normalization残差连接Transformer的优势重要性最新的OpenAI GPT和BERT模型,都是以Transformer为基础的。 在“放弃幻想,全...原创 2019-03-23 21:40:01 · 1226 阅读 · 1 评论 -
word2vec学习
今天看了@皮果提的word2vec中的数学原理详解,受益匪浅,终于搞清楚了一直以来零零散散看的语言模型、n-gram、词向量、word2vec、CRF之间的关系,并且对word2vec的理解深入了一个level,用本篇博文来对要点总结,详细了解请移步原博文word2vec中的数学原理详解。一、语言模型与n-gram、词向量、word2vec、HMM、CRF之间的关系语言模型...原创 2019-03-13 20:47:01 · 389 阅读 · 0 评论 -
RNN基础
一、RNN基础(参考了https://www.atyun.com/30234.html)1. RNN模块 先前隐藏状态和当前输入组合成一个向量,经过tanh激活(将数据范围压缩到-1到+1之间,以防多次连乘数据爆炸),输出隐藏状态,并将隐藏状态传递给序列的下一步。隐藏状态充当神经网络的记忆,它保存着网络以前见过的数据信息。(图片来自https://www.atyun.com/...原创 2019-03-17 21:54:48 · 390 阅读 · 0 评论 -
深度学习基础总结
一、神经网络图解、前向传播、反向传播(推导)推荐阅读:https://blog.csdn.net/u010089444/article/details/52555567二、激活函数参考自:https://www.cnblogs.com/makefile/p/activation-function.html,https://blog.csdn.net/edogawachia/articl...原创 2019-03-12 00:57:04 · 186 阅读 · 0 评论 -
卷积神经网络基础
一、卷积神经网络1. 为什么不将图像搞成向量用DNN来处理? 因为全连接层参数量大、损失相邻像素点的关系、不能学习图像里一些公共的模式。2. 卷积神经网络采用了什么思想? 局部连接(Local Connection):每个神经元只与上一层的一个局部区域连接。 权值共享(Weight Sharing):当前层在深度方向上每个channel的神经元都使用同样的权...原创 2019-03-15 21:58:38 · 431 阅读 · 0 评论 -
Attention机制、HAN
一、Attention机制1.为什么要用Attention在encoder-decoder架构中,当输入序列比较长时,模型的性能会变差,因为即便是LSTM或GRU也是对文本的信息进行了压缩,尤其是对于机器翻译、摘要生成等任务而言,decoder每个时间步的输出其实是对encoder各时间步的输入有不同的侧重的。因此,引入attention机制,来对encoder各时间步赋以不同的权重,也即...原创 2019-03-19 22:07:22 · 923 阅读 · 0 评论 -
基于scikit-learn的文本特征提取和特征选择
一、参考资料 scikit-learn的特点见:https://www.leiphone.com/news/201701/ZJMTak4Y8ch3Nwd0.html。说明文档包括在线官网scikit-learn首页、官网的pdf、Apache翻译的scikit-learn中文文档。进到scikit-learn首页,看到的6个部分就对应Scikit-learn的六大基本功能:数据预...原创 2019-03-07 21:32:55 · 1171 阅读 · 0 评论 -
NB、SVM、LDA
一、基于sklearn的朴素贝叶斯分类器import numpy as npimport sklearnfrom sklearn.datasets import fetch_20newsgroupstwenty_train=fetch_20newsgroups(subset='train',shuffle=True)twenty_train.traget_namesfrom skl...原创 2019-03-09 22:00:17 · 967 阅读 · 0 评论 -
精确率、召回率、PR曲线、ROC曲线、AUC
1.混淆矩阵: 从左边预测到上面 负 正 负 TN FP 正 FN TP 2. 精确率、召回率 精确率precision = TP/(TP+FP) 召回率recall = TP/(TP+FN)3. P-R曲线 以Recall为横坐标轴,以Precision为纵坐标轴的曲线。4. ROC曲线 以TP...原创 2019-03-03 21:54:51 · 428 阅读 · 0 评论 -
文本分类练习二:按照THUCNews的子集对新闻所属类别进行分类
1. 特点:中文数据集、十个类别2. 工具:TensorFlow3. 数据集说明及代码示例:https://github.com/gaussic/text-classification-cnn-rnn4. 对代码示例的run_cnn.py做如下修改(run_rnn.py可做类似修改),并将cnews数据子集放在data文件夹下,即可在PyCharm里运行代码(MacOS + PyCha...原创 2019-03-03 21:28:30 · 1752 阅读 · 3 评论 -
文本分类练习一:按照IMDB影评来对影片好坏进行分类
1. 特点:英文数据集、二分类2. 工具:Keras3. 数据集说明:http://ai.stanford.edu/~amaas/data/sentiment/4. 代码示例:https://tensorflow.google.cn/tutorials/keras/basic_text_classification5. 我的脚本文件代码,个人理解见代码注释(MacOS + PyCh...原创 2019-03-03 21:13:22 · 862 阅读 · 0 评论 -
jieba等第三方库的安装(MacOS系统、virtualenv方式安装的TensorFlow、PyCharm IDE)
注:1. MacOS系统2. 按照http://www.tensorflownews.com/2017/08/07/install-tensorflow-on-mac/中的virtualenv方式安装的TensorFlow3. PyCharm IDE安装步骤:1. 下载第三方库,如jieba,可以从jieba官网下载,也可以从github下载,从github下载的方式是:...原创 2019-03-05 21:27:01 · 4819 阅读 · 0 评论