- 博客(50)
- 收藏
- 关注
原创 Paddle报错的解决方案(持续更新)
问题一 self.output = paddle.layer.fc( input=[self.linear_part, self.interaction_part], size=1, act=paddle.activation.Sigmoid(), param_attr=paddle.attr.Par...
2019-04-19 17:47:07 3294
原创 pyltp安装方法
安装pyltp各种报错,总结一下安装成功了的方法。python2.7安装pip install pyltp==0.1.9.1python3.6安装下载whl文件 https://download.csdn.net/download/qq_22521211/10460778 下载好了以后, 在命令行下, cd到wheel文件所在的目录, 然后使用命令pip...
2018-08-31 10:04:14 992
原创 Git报错的解决方案(持续更新)
问题一Gitlab添加SSH key可以pull但是不能push。GitLab: Deploy keys are not allowed to push code.fatal: Could not read from remote repository.Please make sure you have the correct access rightsand the reposi...
2018-08-29 13:51:41 2287
原创 牛顿法
牛顿法目标:求解无约束最优化问题中的极小值点x∗x∗x^* minx∈Rnf(x)minx∈Rnf(x)min_{x\in R^n}f(x)假设f(x)具有二阶连续偏导数,且第k次迭代值为xkxkx^k,则可将f(x)在xkxkx^k附近进行二阶泰勒展开: f(x)=f(xk)+∇fT(xk)(x−xk)+12(x−xk)TH(xk)(x−xk)f(x)=f(xk)+∇fT(xk)(x...
2018-06-07 11:18:57 374 4
原创 Learning to rank总结
Ranknet在使用搜索引擎的过程中,对于某一Query(或关键字),搜索引擎会找出许多与Query相关的URL,然后根据每个URL的特征向量对该URL与主题的相关性进行打分并决定最终URL的排序,其流程如下: 排序的好坏完全取决于模型的输出,而模型又由其参数决定,因而问题转换成了如何利用带label的训练数据去获得最优的模型参数w。Ranknet提供了一种基于Pairwise的训练方法...
2018-06-05 21:46:22 1257
原创 神经网络出现NAN的个人见解
出现原因学习率较大,若此时反向传回来的梯度也很大的时候,参数可能会更新的非常大,倘若不幸,飞成Inf,前向传播求loss的时候,会报NAN。解决方法调小学习率。某些batch的数据产生过大的梯度,解决方法采用梯度裁剪、数据归一化。数据出错,网络中出现log0、除以0等不正常的操作。 【个人认为1、2是互相依赖的,若梯度很大但学习率比较小的话,参数更新值会因为学习率较小而变小,减少NAN...
2018-05-31 16:55:06 19867 4
原创 Tensorboard报错的解决
问题一终端输入命令:tensorboard –logdir=logs ,提示tensorboard:command not found。错误原因不是tensorboard没有安装,tensorflow-gpu-1.2.1的版本安装的同时已经将tensorboard安装了。解决方法(既然tensorboard命令无效,那么采用最原始的方法): 1. step 1:查找tensorboa...
2018-05-31 09:45:22 10964 2
原创 简洁的文本处理代码
函数1.sorted()2.collections模块的Counter类3.zip()代码 #(1)按文本的长度排序 contents = sorted(contents, key=lambda l: len(l)) #(2)存储contents中出现的所有字、符号 all_words = [] for content in contents: ...
2018-05-28 21:26:06 1853
原创 关于快速排序的N种实现方法
快速排序思路设要排序的数组是A[0]……A[N-1],首先任意选取一个数据(通常选用数组的第一个数)作为关键数据,然后将所有比它小的数都放到它前面,所有比它大的数都放到它后面,这个过程称为一趟快速排序。值得注意的是,快速排序不是一种稳定的排序算法,也就是说,多个相同的值的相对位置也许会在算法结束时产生变动。一趟快速排序的算法是:1)设置两个变量i、j,排序开始的时候:i=0,j=N-1;2)以第一...
2018-05-24 20:26:42 533
原创 shell语法错误
错误1.a=0.5b=0.4if[\$a -gt $b];then echo "sucess"fi报错:未预期的符号‘then’附近有语法错误if囧[囧$a -gt $b囧];then 把上面几个「囧」换成空格就好了。错误2.a=0.5b=0.4if [ $a -gt $b ];then echo "sucess"fi报错:[:...
2018-03-08 20:11:16 1635
原创 linux下执行lightgbm权限不够
问题:再linux下运行lightgbm可执行文件时,显示bash: ./lightgbm :权限不够。解决办法:chmod 777 ./lightgbm,再运行,成功。
2018-01-26 16:15:21 373
原创 Windows下.bat文件编写
.bat文件下批量执行python脚本bat文件包含以下内容: 1)注明echo echo off C: cd C:\Users\Desktop2)设置参数变量 3) 执行python文件 eg: test.batecho offC:cd C:\Users\Desktopset a=1set b=2call python python.
2018-01-18 10:08:01 11144
原创 Windows10下安装Pytorch0.3
环境准备 Anaconda3 (with Python 3.5/3.6) Windows 64位系统(Windows 7 或 Windows Server 2008 及以上) CUDA 8 / CUDA 9(包中已内置,因此老版本也能用) cuDNN v5以上(包中已经自带了, cuDNN v5用户亦可放心使用) 如果不想放弃Anaconda2也可以创建虚拟环境来
2017-12-25 19:14:40 1803
原创 Python爬取百度图片
一、爬取链接的正则表达式 # .的使用举例 a = ‘xy123’ b = re.findall(‘x…’, a) print b # [‘xy12’] ***************************** # *的使用举例 a = ‘xyxy123’ b = re.findall(‘x*’
2017-12-22 22:33:54 602
原创 Python报错的解决方案(持续更新)
问题一SyntaxError: Non-ASCII character ‘\xe6’ in file /study/。。。 #!/usr/bin/python # coding=utf-8 或者 #!/usr/bin/python # -- coding: utf-8 --问题二 with open(data_filepath) as f:...
2017-12-22 22:02:54 1405 1
原创 腾讯自然语言处理实习岗面经
人生第一次被BAT虐,所以记录一下,为明年找工作赞经验,毕竟网上都没有自然语言处理相关的面经。先来点干货! 面试流程 1. 自我介绍 2. 谈谈项目 3. 上黑板写代码按照上述流程分为三块,如下。 简单的自我介绍了一下 我:我做的项目是自然语言生成相关,具体是做广告生成。。。。(面试官听到我做的广告生成的时候,似乎特别感兴趣,一直问我怎么做的,我巴拉说了一堆,然后对我的方法不是很感冒。
2017-12-22 19:22:08 9757 5
原创 TensorFlow中seq2seq库函数
1、seq2seq.py的两个重要的库函数1) outputs, states = basic_rnn_seq2seq(encoder_inputs, decoder_inputs, cell)输入参数 :encoder_inputs: 它是一个二维tensor构成的列表对象,其中每一个二维tensor代表某一时刻的输入,其尺寸为[batch_size x input_size],这里的batch_
2017-12-14 13:35:32 694
转载 Saver使用
1. Saver的背景介绍我们经常在训练完一个模型之后希望保存训练的结果,这些结果指的是模型的参数,以便下次迭代的训练或者用作测试。Tensorflow针对这一需求提供了Saver类。Saver类提供了向checkpoints文件保存和从checkpoints文件中恢复变量的相关方法。Checkpoints文件是一个二进制文件,它把变量名映射到对应的tensor值 。只要提供一个计数器,当计数器
2017-12-12 15:44:52 1181
原创 Tensorflow关于feed的问题
feed可以分成两种:一种是给占位符喂值,另外一种给模型中的变量喂值。 下面的代码就是第二种情况,可以看出,虽然模型初始化变量b为2,但是当我feed_dict={b:1}时,a+b结果为2,而不是3。import tensorflow as tfa = tf.Variable(1)b = tf.Variable(2)sum = a+binit = tf.global_variables_i
2017-11-29 20:27:51 1643 1
原创 TensorFlow报错的解决方案(持续更新)
错误一ValueError: Initializer for variable rnn/basic_rnn_cell/kernel/ is from inside a control-flow construct, such as a loop or conditional. When creating a variable inside a loop or conditional, use ...
2017-11-22 17:03:00 4709
原创 TensorBoard使用
Tensorboard使用方法Tensorboard的使用可大体归结为如下几步: 1) 在构建graph的过程中,记录你想要追踪的Tensor 2) Session会话运行上一步骤中的记录 3) 查看可视化效果一个用三层神经网络实现回归问题的小例子。import tensorflow as tfimport numpy as npimport matplotlib.pyplot as pl
2017-11-20 19:05:23 492
原创 Windows10下安装TensorFlow(CPU、GPU)
安装步骤简洁安装TensorFlow-CPU版本(简单):1)下载并安装Anaconda;2)创建一个名为tensorflow的环境,指定版本是3.5;3)安装TensorFlow-CPU。 安装TensorFlow-GPU版本(复杂):1)下载并安装Anaconda;2)创建一个名为tensorflow的环境,指定版本是3.5;3)安装TensorFlow-GPU;4)cuda安装+cuDnn库
2017-11-11 17:06:59 678
原创 TensorFlow笔记:dynamic_rnn
dynamic_rnn函数有两个输出,outputs, last_states。由于好奇这两个输出到底保存了什么信息,做了如下实验。假设RNN的输入: 1)batch_size=2,一个batch里面有2个句子。 2)rnn_size=2,即最大的句子长度为2。 3)embedding_size=1,词向量长度为1。 4)batch中的两个句子,一个长度为2,一个长度为1。 如图所示:
2017-11-09 10:13:56 5060
原创 TensorFlow官方文档中文版-笔记(八)
递归神经网络之LSTMLSTM模型的核心由一个 LSTM 单元组成,其可以在某时刻处理一个词语,以及计算语句可能的延续性的概率。网络的存储状态由一个零矢量初始化并在读取每一个词语后更新。而且,由于计算上的原因,我们将以 batch_size 为最小批量来处理数据。基础的伪代码就像下面这样:lstm = rnn_cell.BasicLSTMCell(lstm_size)# 初始化 LSTM 存储状态
2017-11-06 15:57:47 560
原创 TensorFlow官方文档中文版-笔记(七)
实现word2vec中skip_gram模型建立图形这里谈得都是嵌套,那么先来定义一个嵌套参数矩阵。我们用唯一的随机值来初始化这个大矩阵。embeddings = tf.Variable( tf.random_uniform([vocabulary_size, embedding_size], -1.0, 1.0))对噪声-比对的损失计算就使用一个逻辑回归模型。对此,我们需要对语料库中的每个
2017-11-03 10:22:39 636
原创 TensorFlow官方文档中文版-笔记(六)
复杂的CNN(加入trick)为与中文文档同步做个笔记,没细研究。完整代码如下:# TensorFlow进阶-实现进阶的CNNfrom CNN import cifar10, cifar10_inputimport mathimport tensorflow as tfimport numpy as npimport timemax_steps = 3000batch_size = 12
2017-11-02 22:10:03 494
原创 TensorFlow官方文档中文版-笔记(五)
TensorFlow格式入门输入与占位符placeholder_inputs()函数将生成两个tf.placeholder操作,定义传入图表中的shape参数,shape参数中包括batch_size值,后续还会将实际的训练用例传入图表。def placeholder_inputs(batch_size): images_placeholder = tf.placeholder(tf.flo
2017-11-02 21:57:47 1307
原创 TensorFlow官方文档中文版-笔记(四)
CNN实现MNIST任务权重初始化为了创建这个模型,我们需要创建大量的权重和偏置项。这个模型中的权重在初始化时应该加入少量的噪声来打破对称性以及避免0梯度。由于我们使用的是ReLU神经元,因此比较好的做法是用一个较小的正数来初始化偏置项,以避免神经元节点输出恒为0的问题(dead neurons)。为了不在建立模型的时候反复做初始化操作,我们定义两个函数用于初始化。# 定义好初始化函数以便重复使用
2017-11-02 19:22:46 447
原创 TensorFlow官方文档中文版-笔记(三)
增加隐含层实现MNIST任务# TensorFlow进阶3—增加隐含层的神经网络import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data# Import datamnist = input_data.read_data_sets("MNIST_data/", one_hot=True)se
2017-11-02 18:14:28 406
原创 TensorFlow官方文档中文版-笔记(二)
简单的Softmax Regression模型实现MNIST任务首先下载MNIST数据集,下载下来的MNIST数据集被分成两部分:60000行的训练数据集(mnist.train)和10000行的测试数据集(mnist.test)。这样的切分很重要,在机器学习模型设计时必须有一个单独的测试数据集不用于训练而是用来评估这个模型的性能,从而更加容易把设计的模型推广到其他数据集上(泛化)。正如前面提到的一
2017-11-02 16:42:19 620
原创 将java工程打包成jar包
1. 准备MANIFEST.MF文件1)若生成的jar包直接导入java工程中使用,可以不用MANIFEST.MF文件,直接在工程中导入jar包引用到的第三方包; 2)若生成的jar包需要放到服务器上跑,在jar包的存放路径下同时存放一个lib文件夹,在该文件夹中存放第三方包,如图所示: 再在MANIFEST.MF文件中指定第三方包的位置,MANIFEST.MF中内容如下: Manife
2017-11-01 12:39:54 29680
原创 TensorFlow官方文档中文版-笔记(一)
TensorFlow简介TensorFlow 是一个编程系统, 使用图来表示计算任务. 图中的节点被称之为 op (operation 的缩写). 一个 op 获得 0 个或多个 Tensor, 执行计算, 产生 0 个或多个 Tensor. 每个 Tensor 是一个类型化的多维数组. 例如, 你可以将一小组图像集表示为一个四维浮点数数组, 这四个维度分别是 [batch, height, wid
2017-10-31 21:33:35 472
原创 梯度下降
【在阅读Skip-Gram模型源码的时候涉及到了梯度下降,翻阅之前做的笔记,不理解为什么用步长*梯度来更新θ?难道不能用其他的参数进行更新吗?它的依据是什么?问了实验室的博士后恍然大悟,在此做个笔记,补充欠缺知识。对上述疑问在文章最后解答,同样有疑问的同学可以参考。】 在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一
2017-10-11 18:03:51 504
原创 在服务器上跑java程序
1.准备工作准备两个软件SecureCRT用来输入命令行,执行操作 WinSCP用来上传文件到服务器2.登录到服务器(允许进入集群的服务器)上先用SecureCRT登录到服务器IP 用户名: 密码:登录界面如下3.上传java文件和引用的jar包到服务器58.198.176.861)用WinSCP登录服务器2)上传文件到服务器 4. 将文件传送到集群的某个节点(用来运行代码的节点)将jart
2017-09-05 15:58:13 9728
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人