Python
文章平均质量分 61
spring_willow
好好学习天天向上
展开
-
NLP-关于数据集处理的相关代码
1.将几个文件中的数据合并为一个文件将要合并的几个文件放入一个文件夹下import os#获取目标文件夹的路径# filedir=os.getcwd()+'/corpus'#获取当前文件夹中文件名称列表# filenames=os.listdir(filedir)#遍历文件名# for filename in filenames: filepath=filedir+'/'+...原创 2018-09-26 14:24:04 · 771 阅读 · 0 评论 -
NLP-Pearson相关系数计算公式及代码
随便记录一下。。。计算公式Pearson=∑ni=1xiyi−∑ni=1xi∑ni=1yin∑ni=1xi2−(∑2i=1xi)2n−−−−−−−−−−−−−−−−√∑ni=1yi2−(∑ni−1yi)2n−−−−−−−−−−−−−−−−√Pearson=∑i=1nxiyi−∑i=1nxi∑i=1nyin∑i=1nxi2−(∑i=12xi)2n∑i=1nyi2−(∑i−1nyi)2nPea...原创 2018-09-15 15:51:10 · 4003 阅读 · 0 评论 -
NLP-准确率、精确率、召回率和F1值
记录准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值(F-Measure)计算公式,和如何使用TensorFlow实现一、计算公式二、TensorFlow实现 # Accuracy with tf.name_scope("accuracy"): correct_predictions = tf.e...原创 2018-09-23 11:27:32 · 9872 阅读 · 0 评论 -
Python-制作可视化词云
目录目录一.对于可视化词云的理解二.python的代码实现(1)实现步骤(2)代码说明1.导入需要的库2.读取数据3.去掉停止词4.统计词频5.显示词云6.结果图三、自定义背景图一.对于可视化词云的理解对人、物、事的文本描述中,大量出现的词可以用于这些对象的标签,将这些标签按照词频的大小以图片的方式展示出来,就成为了可视化的个性化词云。...原创 2018-07-18 16:07:05 · 3816 阅读 · 0 评论 -
Python-pandas中的函数(列表拼接,更改行列名称,选取特定数据等)
记录pandas处理数据时一些函数的使用。。。。1.列表拼接2.更改列名3.更改索引4.选取指定数据5.重置索引1.列表拼接concat()In[24]: import pandas as pdIn[25]: a=pd.DataFrame()In[26]: a['A']=[1,2,3,4,5]In[27]: a['B']=[6,7,8,9,0]...原创 2018-06-22 23:38:07 · 12588 阅读 · 0 评论 -
Python-arange()、reshape()与argmax()
记录Python学习中numpy模块里的几个函数:arange()、reshape()与argmax()arange():创建一维数组In[2]: import numpy as npIn[3]: a=np.arange(6)In[4]: aOut[4]: array([0, 1, 2, 3, 4, 5])reshape:改变数组维度In[5]: a.reshape...原创 2018-04-29 08:59:46 · 1360 阅读 · 0 评论 -
NLP-中文文本去除标点符号
简单记录一下中文文本如何去除标点和特殊符号的问题。。。目录目录一、回顾一下英文如何去除符号等预处理问题①去除特殊符号②去除数字③词形归一④停止词⑤将上述内容综合二、中文文本去除标点符号1.背景知识2.示例说明1:使用Zhon库中的符号集①命令行中安装Zhon库②代码③结果④问题说明3.示例说明2:自定义特殊符号集进行去除...原创 2018-05-06 01:10:39 · 19279 阅读 · 5 评论 -
NLP-读取csv文件
赛题:问题相似度计算 网址:金融大脑-金融智能NLP服务目录目录1.数据格式:2.读取文件:3.更改列名4.获取某一列的信息5.对整个文件进行分割1.数据格式:行号\t句1\t句2\t标注,举例:1 花呗如何还款 花呗怎么还款 1 行号指当前问题对在训练集中的第几行; 句1和句2分别表示问题句对的两个句子; ...原创 2018-05-05 16:22:25 · 1505 阅读 · 3 评论 -
Python-eval()函数
记录一下今天读代码时新学的函数eval()1.功能eval()函数用于执行字符串表达式,并返回表达式的值。表达式的定义是由常量、变量、函数、运算符及圆括号组成的有意义的式子。2.完整语法格式eval(expression,globals=None, locals=None)expression:字符串表达式 globals:不为None时必须是字典对象 locals...原创 2018-04-27 14:57:36 · 344 阅读 · 0 评论 -
NLP-使用tensorflow构建神经网络——卷积层和池化层细节说明
背景介绍本文内容是使用CNN进行文本分类,主要记录文本分类问题中使用tensorflow进行神经网络构建的内容。此篇承接上一篇的NLP-使用tensorflow构建神经网络——嵌入层细节部分说明。目录背景介绍目录一、CNN模型图二、卷积和池化代码三、细节说明之tf.truncated_normal;tf.concat;tf.reshape①tf.truncated...原创 2018-05-04 23:43:56 · 1631 阅读 · 0 评论 -
NLP-python3 translate()报错问题-TypeError: translate() takes exactly one argument (2 given)
学习笔记,备忘录。。。TypeError: translate() takes exactly one argument (2 given)使用translate()函数删除指定字符,报错内容为函数内只需要一个参数,但提供了两个。原因是python2.7版本之后translate()内的参数从两个变成了一个。实例1:去掉文本中的标点符号import stringold...原创 2018-05-11 10:06:56 · 38406 阅读 · 0 评论 -
NLP-使用tensorflow构建神经网络——嵌入层细节部分说明
背景介绍本文内容是使用CNN进行文本分类(垃圾邮件分类),代码来源:https://github.com/dennybritz/cnn-text-classification-tf,github上还有许多相似代码,可自行查找。 主要记录文本分类问题中使用tensorflow进行神经网络构建的内容。目录背景介绍目录一、初始化备注:tf.constant()二...原创 2018-05-03 21:52:25 · 2915 阅读 · 0 评论 -
NLP-数据预处理后的特征选择
学习笔记,,备忘录。。。 内容来源:知乎:特征工程到底是什么?实际应用中的数据往往很多,并存在不相关的特性,特性之间也可能存在相互依赖。通过特征选择剔除不相关或冗余的特征,减少特征个数,减少运行时间的目的。数据预处理后,需要选择有意义的特征,然后再输入机器学习的算法和模型进行训练。一、相关系数法计算各个特征对目标值的相关系数,选择更加相关的特征。原始数据: ...原创 2018-05-09 23:41:35 · 1886 阅读 · 0 评论 -
NLP-离散特征值的数据处理问题
学习笔记,备忘录。。。 来源:特征工程到底是什么?离散特征值离散特征值有两种数据类型:取值大小有意义:eg.尺寸:L,XL,XXL将大小值通过字典进行存储取值大小无意义:eg.颜色:红、黄、蓝使用get_dummies()方法处理 pandas.get_dummies(data,prefix=None,prefix_sep=’‘,dummy_na=Fal...原创 2018-05-09 17:19:11 · 1641 阅读 · 0 评论 -
Python-使用pyplot模块绘图
图表能帮助我们更好的反映出数据的信息,无论是论文还是博客都需要用到,所以非常有必要先学习一下。matplotlib.pyplot在python中,使用matplotlib库中的pyplot模块进行绘图。1.最简单的使用import matplotlib.pyplot as pltplt.plot([4,3,2,1])plt.show()输出结果: 说...原创 2018-05-02 22:44:18 · 1196 阅读 · 0 评论 -
Python-random生成随机数:shuffle()&permutaion()等
shuffle()和permutation()使用python编辑器的控制台进行如下实验:In[2]: import numpy as npIn[3]: a=np.arange(8)In[4]: aOut[4]: array([0, 1, 2, 3, 4, 5, 6, 7])In[5]: np.random.shuffle(a)In[6]: aOut[6]: array...原创 2018-05-01 10:48:49 · 640 阅读 · 1 评论