NLP
文章平均质量分 72
AlexXuZe
研究生,计算机专业
展开
-
NLTK学习之一:简单文本分析
NLTK学习之一:简单文本分析nltk的全称是natural language toolkit,是一套基于python的自然语言处理工具集。1 NLTK的安装nltk的安装十分便捷,只需要pip就可以。pip install nltk在nltk中集成了语料与模型等的包管理器,通过在python解释器中执行>>> import nltk>&g...转载 2018-09-05 17:03:52 · 571 阅读 · 0 评论 -
AI顶级会议列表 & ACL相关
The First Class: tier-1的conferences, 其实基本上就是AI里面大家比较公认的top conference. 下面同分的按字母序排列. IJCAI (1+): AI最好的综合性会议, 1969年开始, 每两年开一次, 奇数年开. 因为AI实在太大, 所以虽然每届基本上能录100多篇(现在已经到200多篇了),但分到每个领域就没几篇了,象machine learn...转载 2019-01-21 20:23:25 · 2437 阅读 · 0 评论 -
NLP基本任务
下面整理了NLP的基本任务分类,资料来源见下链接。https://edu.csdn.net/course/play/8673词法分析(Lexical Analysis):对自然语言进行词汇层面的分析,是NLP基础性工作分词(Word Segmentation/Tokenization):对没有明显边界的文本进行切分,得到词序列新词发现(New Words Identificatio...原创 2019-01-19 21:25:48 · 264 阅读 · 0 评论 -
一文说清楚pytorch和tensorFlow的区别究竟在哪里
转自:https://blog.csdn.net/ibelieve8013/article/details/84261482最近用了一点pytorch,想着稍稍理一下,这样一个和TensorFlow抗衡的一个框架,究竟是何方神圣?首先我们要搞清楚pytorch和TensorFlow的一点区别,那就是pytorch是一个动态的框架,而TensorFlow是一个静态的框架。何为静态的框架呢?我...转载 2019-01-14 15:17:11 · 9406 阅读 · 0 评论 -
MarkDown Pad2 输入密钥,免费分享
由博主 guo_wen_qiang 分享https://blog.csdn.net/guo13313/article/details/66082507 问题描述 Windows 10系统,安装 MarkdownPad 2,打开markdown并书写相关内容时遇到了html 渲染错误(缺少component),右侧视图直接显示 “This view has crashed”的问题...原创 2018-12-20 21:31:47 · 4910 阅读 · 0 评论 -
numpy.linspace
numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)在指定的间隔内返回均匀间隔的数字(就是创建一个等差数列)。在[start, stop]之间返回num个均匀分布的样本这个区间的端点可以任意的被排除在外。...原创 2018-12-09 17:10:10 · 113 阅读 · 0 评论 -
python读取大文件
最近在学习python的过程中接触到了python对文件的读取。python读取文件一般情况是利用open()函数以及read()函数来完成:f = open(filename,'r')f.read()这种方法读取小文件,即读取远远大小小于内存的文件显然没有什么问题。但是如果是将一个10G大小的日志文件读取,即文件大于内存的大小,这么处理就有问题了,会造成MemoryError ......转载 2018-12-09 15:48:13 · 275 阅读 · 0 评论 -
tf.matmul() 和tf.multiply() 的区别
1.tf.multiply()两个矩阵中对应元素各自相乘格式: tf.multiply(x, y, name=None) 参数: x: 一个类型为:half, float32, float64, uint8, int8, uint16, int16, int32, int64, complex64, complex128的张量。 y: 一个类型跟张量x相同的张量。 返回值: x * ...转载 2018-12-09 15:40:25 · 728 阅读 · 0 评论 -
np.random.seed()的作用
今天看到一段代码时遇到了np.random.seed(),搞不清楚的seed()作用是什么,特地查了一下资料,原来每次运行代码时设置相同的seed,则每次生成的随机数也相同,如果不设置seed,则每次生成的随机数都会不一样。...转载 2018-12-09 15:04:18 · 3837 阅读 · 0 评论 -
numpy.eye() 生成对角矩阵
numpy.eye(N,M=None, k=0, dtype=<type 'float'>)关注第一个第三个参数就行了第一个参数:输出方阵(行数=列数)的规模,即行数或列数第三个参数:默认情况下输出的是对角线全“1”,其余全“0”的方阵,如果k为正整数,则在右上方第k条对角线全“1”其余全“0”,k为负整数则在左下方第k条对角线全“1”其余全“0”。>>&...转载 2018-12-08 22:58:49 · 7072 阅读 · 2 评论 -
numpy中的stack操作:hstack()、vstack()、stack()、dstack()、vsplit()、concatenate()
stack():沿着新的轴加入一系列数组。 vstack():堆栈数组垂直顺序(行) hstack():堆栈数组水平顺序(列)。 dstack():堆栈数组按顺序深入(沿第三维)。 concatenate():连接沿现有轴的数组序列。 vsplit():将数组分解成垂直的多个子数组的列表。...原创 2018-12-08 22:46:36 · 253 阅读 · 0 评论 -
numpy数组拼接方法介绍(concatenate)
数组拼接方法一思路:首先将数组转成列表,然后利用列表的拼接函数append()、extend()等进行拼接处理,最后将列表转成数组。示例1:>>> import numpy as np>>> a=np.array([1,2,5])>>> b=np.array([10,12,15])>>> a_list=lis...转载 2018-12-08 22:39:39 · 1281 阅读 · 0 评论 -
enumerate() 函数
enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列,同时列出数据和数据下标,一般用在 for 循环当中。原创 2018-12-08 22:31:24 · 116 阅读 · 0 评论 -
神经网络中Epoch、Iteration、Batchsize相关理解和说明
https://blog.csdn.net/program_developer/article/details/78597738batchsize:中文翻译为批大小(批尺寸)。简单点说,批量大小将决定我们一次训练的样本数目。batch_size将影响到模型的优化程度和速度。 为什么需要有Batch_Size:batchsize的正确选择是为了在内存效率和内存容量之间寻找最佳...转载 2018-12-07 21:38:21 · 673 阅读 · 0 评论 -
千万级微博语料数据
由 千叶正志 博主整理https://blog.csdn.net/nghuyong/article/details/79180449转载 2018-12-07 20:54:57 · 2218 阅读 · 0 评论 -
word2vec基本概念
基本概念作为自然语言处理爱好者,大家都应该听说过或使用过大名鼎鼎的Gensim吧,这是一款具备多种功能的神器。 Gensim是一款开源的第三方Python工具包,用于从原始的非结构化的文本中,无监督地学习到文本隐层的主题向量表达。 它支持包括TF-IDF,LSA,LDA,和word2vec在内的多种主题模型算法, 支持流式训练,并提供了诸如相似度计算,信息检索等一些常用任务的API接口...转载 2018-12-07 16:39:24 · 220 阅读 · 0 评论 -
特征提取方法: one-hot 和 TF-IDF
one-hot 和 TF-IDF是目前最为常见的用于提取文本特征的方法,本文主要介绍两种方法的思想以及优缺点。1. one-hot1.1 one-hot编码 什么是one-hot编码?one-hot编码,又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。举个例子,假设我们有四个样本(行),每个样...转载 2018-09-29 15:52:04 · 273 阅读 · 0 评论 -
LSTM原理及实现
前面我们介绍了RNN,现在我们来介绍一种特殊的RNN结构,LSTM网络。我们将逐步介绍LSTM的结构,原理,以及利用LSTM识别手写数字的demo跟深刻的理解LSTM。LSTM网络long short term memory,即我们所称呼的LSTM,是为了解决长期以来问题而专门设计出来的,所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的...转载 2018-09-20 15:54:27 · 887 阅读 · 0 评论