- 博客(69)
- 收藏
- 关注
原创 seq2seq理解
Seq2Seq模型是RNN最重要的一个变种:N vs M(输入与输出序列长度不同)。这种结构又叫Encoder-Decoder模型。由于这种Encoder-Decoder结构不限制输入和输出的序列长度,因此应用的范围非常广泛,比如:机器翻译。Encoder-Decoder的最经典应用,事实上这一结构就是在机器翻译领域最先提出的文本摘要。输入是一段文本序列,输出是这段文本序列的摘要序...
2018-07-26 18:12:09
2560
2
原创 attention机制详解
原论文:Neural Machine Translation by Jointly Learning to Align and Translate参考博客:https://blog.csdn.net/shijing_0214/article/details/75194103注意一点:这篇论文把输入端隐含层状态称为注释h,输出端隐含层状态称为隐含层状态s叫法不同,其实都是隐含层状态...
2018-07-26 17:57:00
3334
原创 gensim中word2vec的使用
一、遇见的坑:1、Word2Vec和word2vec不是一个东西,word2vec包含了所有的方法,Word2Vec是word2vec文件下的一个类,用于模型相关的方法2、word2vec导入数据集只能用word2vec.Text8Corpus(path)的方式去导入3、保存、载入训练好的模型最好采用自带的方法:model.save('abc.txt')model2=word2...
2018-07-25 18:03:24
2202
原创 CBOW最强理解
翻译自:https://iksinc.online/tag/continuous-bag-of-words-cbow/向量空间模型在信息检索中是众所周知的,其中每个文档被表示为向量。矢量分量表示文档中每个单词的权重或重要性。使用余弦相似性度量计算两个文档之间的相似性。尽管对单词使用矢量表示的想法也已经存在了一段时间,但是对于嵌入单词的技术,将单词映射到向量的技术,最近一直在飙升。其中一个驱...
2018-07-25 15:15:19
40384
14
原创 为什么要做word embedding
该篇主要是讨论为什么要做word embedding:gitbook阅读:Word Embedding介绍至于word embedding的详细训练方法在下一节描述。 目录单词表达 One hot representation Distributed representation Word embedding 目的 数据量角度 神经网络分析 训...
2018-07-25 14:44:44
1957
原创 Ubuntu 17.04 桌面版安装指南
Ubuntu 17.04 桌面版安装指南 [日期:2017-07-16] 来源:Linux公社 作者:Linux [字体:大 中 小] Ubuntu 17.04的正式发布是Linux桌面爱好者的好消息。 Ubuntu 17.04的代号是Zesty Zapus,因为它不是LTS版本,所以它的支持仅在未来9个月可用(2018年1月)。...
2018-07-25 11:11:10
985
原创 Linux系统启动盘制作
准备工作: 请到官方网站下载win32diskimager 工具。 下载地址http://sourceforge.net/projects/win32diskimager/files/latest/download下载linux系统的ISO包1.先插入U盘,再打开win32diskimager。2. 选择接入U盘的盘符(电脑中最好只接入一个U盘,以免选错)3.在Image Fi...
2018-07-25 11:10:20
2431
原创 Ubuntu下更换阿里源及通过yum安装mysql
首先查看自己的ubuntu系统的codename,直接导致你更新的源是否对你的系统起效果,查看方法: lsb_release -a 我的系统显示:Codename: bionic确认阿里源支持 登陆以下网页:http://mirrors.aliyun.com/ubuntu/dists/ 该网页显示了阿里云支持的ubuntu系统下各个Codename版本,确保自己的Codename在该...
2018-07-25 11:08:11
5244
原创 奇异值分解(2)
1.前言 第一次接触奇异值分解还是在本科期间,那个时候要用到点对点的刚体配准,这是查文献刚好找到了四元数理论用于配准方法(点对点配准可以利用四元数方法,如果点数不一致更建议应用ICP算法)。一直想找个时间把奇异值分解理清楚、弄明白,直到今天才系统地来进行总结。上一次学习过关于PCA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。特征值和奇异值在...
2018-07-25 11:06:56
181
原创 奇异值分解(1)
转载请声明出处http://blog.csdn.net/zhongkejingwang/article/details/43053513 在网上看到有很多文章介绍SVD的,讲的也都不错,但是感觉还是有需要补充的,特别是关于矩阵和映射之间的对应关系。前段时间看了国外的一篇文章,叫A Singularly Valuable Decomposition The SVD of a Matrix,...
2018-07-25 11:05:44
255
原创 哈夫曼树
什么是哈夫曼树?让我们先举一个例子。判定树: 在很多问题的处理过程中,需要进行大量的条件判断,这些判断结构的设计直接影响着程序的执行效率。例如,编制一个程序,将百分制转换成五个等级输出。大家可能认为这个程序很简单,并且很快就可以用下列形式编写出来: [cpp] view plain copyif(score<60) cout<<"Bad"<<e...
2018-07-05 16:46:44
1227
原创 anaconda使用总结
Anaconda概述Anaconda是一个用于科学计算的Python发行版,支持 Linux, Mac, Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理,并且已经包含了Python和相关的配套工具。这里先解释下conda、ana...
2018-06-23 15:51:11
501
原创 os.path模块常用指令
os.path模块主要用于文件的属性获取,在编程中经常用到,以下是该模块的几种常用方法。更多的方法可以去查看官方文档:http://docs.python.org/library/os.path.html1.os.path.abspath(path) 返回path规范化的绝对路径。 >>> os.path.abspath('test.csv') 'C:\\Python25\\t...
2018-06-23 14:48:59
132
原创 python使用codecs模块进行文件操作
由于python中默认的编码是ascii,如果直接使用open方法得到文件对象然后进行文件的读写,都将无法使用包含中文字符(以及其他非ascii码字符),因此建议使用utf-8编码。使用方法 读 下面的代码读取了文件,将每一行的内容组成了一个列表。 import codecsfile = codecs.open('test.txt','r','utf-8')lines = [line.stri...
2018-06-20 14:14:19
546
原创 pickle持久化对象pickle 和joblib
持久化即将对象保存到本地,使用pickle持久化产生的文件无法被txt读取,但速度更快,更加节省资源和时间pickle 保存 pickle 是一个 python 中, 压缩/保存/提取 文件的模块. 最一般的使用方式非常简单. 比如下面就是压缩并保存一个字典的方式. 字典和列表都是能被保存的.import picklea_dict = {'da': 111, 2: [23,1,4], '23'...
2018-06-19 22:23:32
3423
转载 Python3 正则表达式
Python3 正则表达式正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式。re 模块使 Python 语言拥有全部的正则表达式功能。compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。re 模块也提供了与这些...
2018-06-19 14:45:27
126
原创 python中的绝对路径和相对路径
在编写的py文件中打开文件的时候经常见到下面其中路径的表达方式:[python] view plain copyopen('aaa.txt') open('/data/bbb.txt') open('D:\\user\\ccc.txt') 这三种表达式里面,前两个都是相对路径,第三个则是绝对路径。绝对路径比较好理解,就是最完整的路径,相对路径的相对则是不完整路径,这个相对指的就是相对于当前文...
2018-06-19 14:28:57
1602
转载 Python散点图
最近开始学习Python编程,遇到scatter函数,感觉里面的参数不知道什么意思于是查资料,最后总结如下:1、scatter函数原型2、其中散点的形状参数marker如下:3、其中颜色参数c如下:4、基本的使用方法如下:[python] view plain copy#导入必要的模块 import numpy as np import matplo...
2018-06-15 20:40:29
5893
原创 画图解决中文显示问题
绘图时,如果title或者lable上有中文会出现乱码import numpy as npimport matplotlib.pyplot as plta=np.array([10 for i in range(10)])plt.title('测试')plt.plot(a)会出现此时加上这个:import matplotlib as mplmpl.rcParam...
2018-06-14 14:30:53
1345
1
原创 matplot画图坐标原点不重合的问题
matplotlib绘图是会遇到坐标原点不重合的问题,如下图import matplotlib.pyplot as pltimport numpy as npy = np.array([-10,0,1,2,3,4,5,5,6,7,78,9])plt.figure()plt.plot(y)plt.show()运行结果如下:这时只需设置x轴的范围即可,代码如下plt.x...
2018-06-11 17:47:09
21509
7
转载 matplotlib绘图
http://blog.csdn.net/pipisorry/article/details/37742423matplotlib介绍 matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。它的文档相当完备,并且Gallery页面 中有上百幅缩略图,打开之后都...
2018-06-11 17:28:59
471
原创 更改pip源至清华、阿里镜像
临时使用:可以在使用pip的时候加参数-i https://pypi.tuna.tsinghua.edu.cn/simple例如:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple gevent,这样就会从清华这边的镜像去安装gevent库。阿里源地址为:https://mirrors.aliyun.com/pypi/s...
2018-06-07 23:45:36
123489
2
原创 中文文本分类流程
利用python进行中文文本分类,主要包括以下几个流程①:一、预处理预处理主要是对训练集和测试集的语料库进行处理。训练集语料库是已经分好类的资料,处理时按照不同的类放入不同的路径下,如./train_corpus/C3-Art,……,\train_corpus\C39-Sports测试集语料库用于检测实际效果,也是已经分好类的语料库。如果语料库是自己爬取到的网页等内容中获取的文本,需要将html标...
2018-06-07 17:40:55
9797
转载 numpy的文件存取方法
NumPy提供了多种存取数组内容的文件操作函数。保存数组数据的文件可以是二进制格式或者文本格式。二进制格式的文件又分为NumPy专用的格式化二进制类型和无格式类型。一,tofile()和fromfile()tofile()将数组中的数据以二进制格式写进文件tofile()输出的数据不保存数组形状和元素类型等信息fromfile()函数读回数据时需要用户指定元素类型,并对数组的形状进行适当的修改 ...
2018-05-30 16:00:07
1268
原创 DataFrame的索引
DataFrame可以同list或者ndarray一样,根据下标索引,如tset[0][1],同时,由于index和columns属性,有一些其他的索引方法。一个简单的DataFrame如下test = pd.DataFrame([[1,2,3,4],[5,6,7,8]],index = ['a','b'],columns = ['A','B','C','D'])显示如下: A B C ...
2018-05-30 10:55:44
5574
原创 read_csv报错
OSError: Initializing from file failed当你用pandas读取文件报这种错误时,一般是因为你的文件名中带有中文,例如:res = pd.read_csv('我的文件.csv')1这种情况就会报错,只需要这样更改就可以:f = open('我的文件.csv')res = pd.read_csv(f)12然后就可以读取文件了...
2018-05-30 10:07:26
1703
原创 Python中zip函数的用法
def add(a,b): print(a+b) for a,b in zip([1,2,3],[4,5,6]): add(a,b) 输出结果:579for后面的变量和zip中的迭代器是一一对应的关系
2018-05-29 22:04:04
733
1
转载 pandas.read_csv参数整理
读取CSV(逗号分割)文件到DataFrame也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html参数:filepath_or_buffer : str,pathlib。str, pathlib.Path, py._path.local.LocalPath or any object with a rea...
2018-05-29 17:16:50
166
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅