NLP之路
文章平均质量分 65
记录学习自然语言处理的全过程
spring_willow
好好学习天天向上
展开
-
NLP-关于数据集处理的相关代码
1.将几个文件中的数据合并为一个文件将要合并的几个文件放入一个文件夹下import os#获取目标文件夹的路径# filedir=os.getcwd()+'/corpus'#获取当前文件夹中文件名称列表# filenames=os.listdir(filedir)#遍历文件名# for filename in filenames: filepath=filedir+'/'+...原创 2018-09-26 14:24:04 · 745 阅读 · 0 评论 -
NLP-神经网络隐藏层节点数设置
内容来源:http://www.ilovematlab.cn/thread-209458-1-1.htmlBP神经网络隐藏层节点数设置—经验公式mmm:隐藏层节点数nnn:输入层节点数lll:输出层节点数α\alphaα:1–10之间的常数m=n+l+αm=\sqrt{n+l}+\alpham=n+l+αm=log2nm=log_2{n}m=log2nm=n∗lm=\sqrt...原创 2018-09-24 23:56:26 · 6714 阅读 · 0 评论 -
NLP-准确率、精确率、召回率和F1值
记录准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值(F-Measure)计算公式,和如何使用TensorFlow实现一、计算公式二、TensorFlow实现 # Accuracy with tf.name_scope("accuracy"): correct_predictions = tf.e...原创 2018-09-23 11:27:32 · 9785 阅读 · 0 评论 -
NLP-Pearson相关系数计算公式及代码
随便记录一下。。。计算公式Pearson=∑ni=1xiyi−∑ni=1xi∑ni=1yin∑ni=1xi2−(∑2i=1xi)2n−−−−−−−−−−−−−−−−√∑ni=1yi2−(∑ni−1yi)2n−−−−−−−−−−−−−−−−√Pearson=∑i=1nxiyi−∑i=1nxi∑i=1nyin∑i=1nxi2−(∑i=12xi)2n∑i=1nyi2−(∑i−1nyi)2nPea...原创 2018-09-15 15:51:10 · 3968 阅读 · 0 评论 -
NLP-分布表示(distributional representation)与分布式表示(distributed representation)
写论文好纠结这两个东西的概念。。。对网上查到的资料进行以下整理。。。distributed representation&distributional representation分布式表示与分布表示1.关于Manning 在2015 年深度学习暑期学校(蒙特利尔)的澄清 Distributed: A concept is represented as cont...原创 2018-08-06 12:16:03 · 9451 阅读 · 1 评论 -
NLP-UnicodeDecodeError: 'utf8' codec can't decode byte 0xe6 in position 0: invalid continuation byte
记录使用simhash和 CountVectorizer计算文本相似性时遇到的问题,,主要是我线下的Windows系统使用的是python3.5,线上评测使用的是python2.7。。。问题:UnicodeDecodeError: ‘utf8’ codec can’t decode byte 0xe6 in position 0: invalid continuation byte...原创 2018-07-07 00:35:11 · 4649 阅读 · 0 评论 -
NLP-fuzzywuzzy安装,同simhash
记录文本相似度计算中fuzzywuzzy的安装使用。。。安装流程有git的情况 git clone git://github.com/seatgeek/fuzzywuzzy.git fuzzywuzzy cd fuzzywuzzy python setup.py install无git的情况 下载zip包解压 命令行进入文件夹下install 重启pyCharm ...原创 2018-06-19 11:24:26 · 2129 阅读 · 0 评论 -
NLP-英文文本预处理中的文本清洗内容
记录英文文本中的文本清洗内容:缩略词更改拼写校正标点符号符号替换去除空格 def clean_text(text): """ Clean text :param text: the string of text :return: text string after cleaning """ ...原创 2018-06-17 22:30:38 · 10094 阅读 · 0 评论 -
NLP-python pyemd安装
报错内容:ImportError: Please install pyemd Python package to compute WMD.解决方案:使用命令行pip install pyemd报错内容:error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build...原创 2018-06-19 10:21:24 · 4105 阅读 · 0 评论 -
NLP-Highway Network代码实现
记录Highway Network的代码实现部分,以备日后使用。。。Highway Network1.作用or概念部分1.https://blog.csdn.net/u011534057/article/details/51819691 2.https://blog.csdn.net/l494926429/article/details/517378832.代码实现部分d...原创 2018-06-04 23:38:12 · 1857 阅读 · 2 评论 -
NLP-不同格式的词向量的保存与加载
训练好的词向量可以保存成几种不同的格式,而每种格式的加载方式却不尽相同,现简单记录一下。。。1.以model.save()方法保存词向量保存词向量import gensimmodel = gensim.models.Word2Vec(documents, size=300)model.train(documents, total_examples=len(documents...原创 2018-06-06 21:37:08 · 5367 阅读 · 0 评论 -
NLP-离散特征值的数据处理问题
学习笔记,备忘录。。。 来源:特征工程到底是什么?离散特征值离散特征值有两种数据类型:取值大小有意义:eg.尺寸:L,XL,XXL将大小值通过字典进行存储取值大小无意义:eg.颜色:红、黄、蓝使用get_dummies()方法处理 pandas.get_dummies(data,prefix=None,prefix_sep=’‘,dummy_na=Fal...原创 2018-05-09 17:19:11 · 1615 阅读 · 0 评论 -
NLP-数据预处理后的特征选择
学习笔记,,备忘录。。。 内容来源:知乎:特征工程到底是什么?实际应用中的数据往往很多,并存在不相关的特性,特性之间也可能存在相互依赖。通过特征选择剔除不相关或冗余的特征,减少特征个数,减少运行时间的目的。数据预处理后,需要选择有意义的特征,然后再输入机器学习的算法和模型进行训练。一、相关系数法计算各个特征对目标值的相关系数,选择更加相关的特征。原始数据: ...原创 2018-05-09 23:41:35 · 1875 阅读 · 0 评论 -
NLP-python3 translate()报错问题-TypeError: translate() takes exactly one argument (2 given)
学习笔记,备忘录。。。TypeError: translate() takes exactly one argument (2 given)使用translate()函数删除指定字符,报错内容为函数内只需要一个参数,但提供了两个。原因是python2.7版本之后translate()内的参数从两个变成了一个。实例1:去掉文本中的标点符号import stringold...原创 2018-05-11 10:06:56 · 38207 阅读 · 0 评论 -
NLP-读取csv文件
赛题:问题相似度计算 网址:金融大脑-金融智能NLP服务目录目录1.数据格式:2.读取文件:3.更改列名4.获取某一列的信息5.对整个文件进行分割1.数据格式:行号\t句1\t句2\t标注,举例:1 花呗如何还款 花呗怎么还款 1 行号指当前问题对在训练集中的第几行; 句1和句2分别表示问题句对的两个句子; ...原创 2018-05-05 16:22:25 · 1490 阅读 · 3 评论 -
NLP-中文文本去除标点符号
简单记录一下中文文本如何去除标点和特殊符号的问题。。。目录目录一、回顾一下英文如何去除符号等预处理问题①去除特殊符号②去除数字③词形归一④停止词⑤将上述内容综合二、中文文本去除标点符号1.背景知识2.示例说明1:使用Zhon库中的符号集①命令行中安装Zhon库②代码③结果④问题说明3.示例说明2:自定义特殊符号集进行去除...原创 2018-05-06 01:10:39 · 18985 阅读 · 5 评论 -
NLP-使用tensorflow构建神经网络——嵌入层细节部分说明
背景介绍本文内容是使用CNN进行文本分类(垃圾邮件分类),代码来源:https://github.com/dennybritz/cnn-text-classification-tf,github上还有许多相似代码,可自行查找。 主要记录文本分类问题中使用tensorflow进行神经网络构建的内容。目录背景介绍目录一、初始化备注:tf.constant()二...原创 2018-05-03 21:52:25 · 2794 阅读 · 0 评论 -
NLP-使用tensorflow构建神经网络——卷积层和池化层细节说明
背景介绍本文内容是使用CNN进行文本分类,主要记录文本分类问题中使用tensorflow进行神经网络构建的内容。此篇承接上一篇的NLP-使用tensorflow构建神经网络——嵌入层细节部分说明。目录背景介绍目录一、CNN模型图二、卷积和池化代码三、细节说明之tf.truncated_normal;tf.concat;tf.reshape①tf.truncated...原创 2018-05-04 23:43:56 · 1517 阅读 · 0 评论 -
NLP-中文文本预处理
jieba jieba是一个专门处理中文分词的分词库,但其实功能比单纯的分词强大许多。中文不同于英文可以通过空格分开每个有意义的词,对于中文需要一个工具将完整的文本分割成更细致的词语,类似于英文分词中使用的nltk工具,中文中需要使用jieba。pip install jieba目录jieba目录1.基本分词函数2. 添加用户自定义词典3.关键词提取...原创 2018-03-25 21:10:21 · 5873 阅读 · 0 评论 -
NLP-用RNN/LSTM做文本生成
说明:学习笔记,内容来自七月在线视频-作者加号一、带记忆神经网络 文本生成,光直接feed不行,我们希望我们的分类器能够记得上下文前后关系,RNN的目的就是让有sequential关系的信息得到考虑。sequential关系是信息在时间上的前后关系。1.RNN2.LSTM-加强版RNN 说明3.模拟信息在LSTM的变化①忘记门决定了我们应该忘记哪些信息 ②记忆门哪些该记住 ③更新门把老原创 2018-04-05 10:49:23 · 15987 阅读 · 4 评论 -
NLP-隐马尔可夫模型及使用实例
说明:学习笔记,内容来自周志华的‘机器学习’书籍和加号的‘七月在线’视频。隐马尔可夫模型 隐马尔可夫模型(Hidden Markov Model,简称HMM)是结构最简单的动态贝叶斯网,这是一种著名的有向图模型,主要用于时序数据建模,在语音识别、自然语言处理等领域有广泛应用。——周志华《机器学习》1.隐马尔可夫模型的结构信息:隐马尔可夫模型中的变量可以分为两组,第一组...原创 2018-04-09 19:20:07 · 9981 阅读 · 0 评论 -
NLP-初学条件随机场(CRF)
说明:学习笔记,内容参考《机器学习》《数学之美》和七月在线课件条件随机场定义1: 条件随机场(conditional random field,简称CRF)是一种判别式无向图模型。生成式模型是直接对联合分布进行建模,而判别式模型则是对条件分布进行建模,隐马尔可夫模型就是生成式模型。——周志华《机器学习》定义2: 条件随机场模型是Lafferty于2001年,在最大...原创 2018-04-11 20:21:34 · 3463 阅读 · 0 评论 -
NLP-使用CNN进行文本分类
CNN最初用于处理图像问题,但是在自然语言处理中,使用CNN进行文本分类也可以取得不错的效果。在文本中,每个词都可以用一个行向量表示,一句话就可以用一个矩阵来表示,那么处理文本就与处理图像是类似的了。目录目录一、卷积神经网络CNN1.模型说明2.卷积核3.CNN4Text4.两种参数调整问题二、使用实例:word2vec+CNN进行文本分类1.题目2.数...原创 2018-04-20 22:39:57 · 20851 阅读 · 14 评论 -
NLP-epoch和batch
epoch和batch到底是个什么鬼?背景说明先上个简单的代码记录一下我此刻懵懵的状态: 问个问题: 从图中可以看到我现在正在看一个关于CNN文本分类的代码,github上有很多。该代码是data_helper.py 文件中的一个函数,该函数是一个batch样本生成器,这里面就涉及到了神经网络里经常用到的batch_size和epoch,它们的含义究竟是什么呢? 一句话回...原创 2018-05-01 20:14:50 · 2119 阅读 · 0 评论