自然语言处理
文章平均质量分 87
凌疯墨子
城市慷慨亮整夜灯, 如同少年不惧岁月长。
展开
-
pytorch中一些常用方法的总结
主要介绍一些pytorch框架常用的方法,这里torch环境实在torch0.3.1情况,请对号入座。。。1、首先介绍我们学习pytorch的官方教程地址:http://pytorch.org/docs/master/index.html;还有一个中文文档:点击打开链接,0.4版本的官方文档:点击打开链接2、我个人也是 pytorch 的初学者,我以一个初学者的身份来简单介绍torch的使...原创 2017-09-16 20:23:51 · 51330 阅读 · 3 评论 -
服务器上安装conda和torch0.4.1的辛酸史
话不多,我尝试很多种方法。。。。直接来安装步骤按照网上的教材,先上官网下载好anconda,当然你也可以用miniconda,本文以在服务器linux系统下安装conda和torch0.4.1为例子。别问,为啥torch1.0出来,还要安装torch0.4.1。回答是你管得着啊,我就喜欢用这个版本,情况还是由于实验需求所致。1、第一步可以安装Anconda,可以从官网中下载,也可以在下面地...原创 2019-02-28 16:15:33 · 9314 阅读 · 2 评论 -
python 刷 leetcode 题目 (18)
384. 打乱数组打乱一个没有重复元素的数组。示例:// 以数字集合 1, 2 和 3 初始化数组。 int[] nums = {1,2,3}; Solution solution = new Solution(nums);// 打乱数组 [1,2,3] 并返回结果。任何 [1,2,3]的排列返回的概率应该相同。 solution.shuffle();// 重设数组到它的初...原创 2018-06-10 10:27:17 · 424 阅读 · 0 评论 -
实体命名识别(NER)任务中加词典
导读本文主要介绍一下,为什么需要加入词典到这个任务中,并介绍用LSTM模型来做NER任务,以及怎么模型加入词典到模型中。一、NER任务简介NER(Named Entity Recognition,命名实体识别)又称作专名识别,是自然语言处理中常见的一项任务,使用的范围非常广。命名实体通常指的是文本中具有特别意义或者指代性非常强的实体,通常包括人名、地名、机构名、时间、专有名词等...原创 2018-06-09 21:27:22 · 7565 阅读 · 7 评论 -
如何使用word2vec进行分词训练
windows如何使用word2vec进行分词训练1、word2vec分词器运行一般都会在linux系统,所以在windows系统下,我们一般会借用其他工具,在这里我推荐两种。一种是xshell进行连接你的服务器,在你的服务器下进行linux命令操作,还有一种就是下载cygwin(地址:http://www.cygwin.com/install.html),在安装时注意:因为默认安装下没有安装转载 2017-09-03 19:29:57 · 3870 阅读 · 0 评论 -
pytorch框架写的bug心路历程
1、GPU内存不足错误错误描述,我在实验室配置的电脑跑NER任务的过程中(当然数据比较大)前六轮数据是没有什么错误的,但是当到了第六轮的时候,我也一直在监控我的任务管理器的cpu和GPU的变化情况,发现GPU前几轮一直处于稳定增加的,第六轮出现忽然闪到99%,但是迅速降下来了。反正最后还是扛不住,崩掉了。 。。我还以为是自己的程序有bug,检查实在找不出, 最后我让实验室的大佬们,帮我用实验室的显...原创 2018-05-22 09:47:04 · 454 阅读 · 0 评论 -
NER任务的评测指标
1、NER 简介NER(Named Entity Recognition,命名实体识别)又称作专名识别,是自然语言处理中常见的一项任务,使用的范围非常广。命名实体通常指的是文本中具有特别意义或者指代性非常强的实体,通常包括人名、地名、机构名、时间、专有名词等。NER系统就是从非结构化的文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可...原创 2018-05-22 09:18:32 · 12572 阅读 · 1 评论 -
过拟合、正则化、泛化、归一化
1、什么是过拟合过拟合现象:通常我们在分类任务过程中都会遇到过拟合这种现象,具体表现为,当我们增加训练集的数据时,测试集的分类效果反而降低,这种现象称为过拟合,或者叫过配。过拟合的本质:是由于监督学习问题的不稳定,表现为三点(1)、有限的训练数据不能完全反映出一个模型的好坏,然而我们不得不在这有限的数据集上挑选模型,因此我们完全有可能挑选到训练集上表现好而在测试集上表现很差的模型,也无法知道模型在...原创 2018-05-07 16:27:09 · 3071 阅读 · 0 评论 -
深度学习常见问题小结
1. 深度学习的本质首先深度学习也是机器学习的一个分支,深度学习是基于神经网络的一种建模方法。深度学习的本质是通过构建具有很多隐藏的机器学习模型和海量的训练数据来学习更有用的特征,从而到达提高分类性能和预测的准确性。2. 深度学习的目的深度学习通过模拟人脑进行分析学习的神经网络,神经网络模拟人脑的机制来解释数据例如:图像、声音、文本等3. 反向传播推导 反向传播算法(Backpropagation...原创 2018-05-06 19:03:30 · 6453 阅读 · 0 评论 -
Dropout浅见
神经网络中Dropout的理解1、神经网络dropout的使用情况在神经网络的训练过程中,对于神经网络单元,按照一定的概率将一部分的训练数据暂时性的抛弃,对于随机梯度下降来说,由于随机丢弃部分数据,因此,每一个mini-batch都在训练不同的神经网络。 2、dropout的作用 作用:在卷积神经网络(CNN)可以有效的防止过拟合,提高学习效率。使用方法过程,常见的做法在过完一个神经...原创 2018-05-06 10:49:20 · 2270 阅读 · 0 评论 -
清洗中文语料过程
语料需要的清洗的问题1、标点符号,中文标点混合英文标点符号,全半角等 2、有一些特殊的表情符号存在于句子中 3、还有一些标点符号重复使用 4、至于繁体中文转中文,停用词等之类1、规则匹配方法### 匹配除了数字、英文标点、中文标点、中文字符、中文字符之外符号;这种符号一般可以去掉中文文本表达中的表情符号,特殊字符等之类的。improt refrom string impor...原创 2019-03-02 12:58:34 · 10582 阅读 · 0 评论