2018年02月_AIBAIKE

12月 11月 10月 09月 08月 05月 04月 03月 02月

原创 HMM隐马尔可夫模型

Viterbi 算法是在已知观察序列的概率分布，寻找最可能的隐藏状态序列(参考：http://www.52nlp.cn/hmm-learn-best-practices-six-viterbi-algorithm-1 https://www.cnblogs.com/skyme/p/4651331.html...

2018-02-27 10:04:02 244

原创 ubuntu：关闭某个进程

参考：http://blog.csdn.net/chen861201/article/details/6980677/ps aux | grep xxx（程序名称）kill xxx（某个PID）

2018-02-26 14:15:33 9488

原创目标检测：YOLO算法

R-CNN系列目标检测方法（R-CNN, Fast R-CNN, Faster R-CNN）看图片做目标检测，都是需要“看两眼”的。即，第一眼做 “region proposals”获得所有候选目标框，第二眼对所有候选框做“Box Classifier候选框分类”才能完成目标检测：事实上“第一眼”是挺费时间的，可否看一眼就能得到最后的目标检测结果？达到实时检测的可能? 答案

2018-02-11 20:12:48 574

原创 Summary name /clone_loss is illegal; using clone_loss instead

这个是tensorflow中运行inception-v3时的一个警告，进入底层代码发现，其实主要是名字命名问题，tensorflow报出这个警告，但是同时也会将正确的进行赋值。...

2018-02-11 09:41:16 1004

原创 tensorflow：版本带来的问题

module 'tensorflow' has no attribute 'image_summary'或者“sub”,大多是因为版本问题导致，有些旧版本的函数名称已被改变，可以直接在网上查找对应的正确的形式。...

2018-02-11 09:40:54 393

原创 python：excel的读写操作

参考：http://blog.csdn.net/hqzxsc2006/article/details/51768351注意：表格必须为xls格式，xlsx格式写入后打开失败，具体原因不清楚

2018-02-11 09:40:00 276 1

原创 python：:strip的特殊用法

>>str='woshi ni de \n \r '>>print str.strip()>>woshi ni destrip()默认去除空白符，包括'\n', '\r', '\t', ' '。详见如下博客对空白符的说明：http://www.360doc.com/content/11/1029/16/5482098_160101381.shtmlhttp...

2018-02-11 09:39:18 349

安装gensim需要先安装numpy和scipy，安装过程中报no lapack/blas resources found，见http://blog.csdn.net/qq_21904665/article/details/52059978，主要是由于scipy的问题。我电脑中本身已经有scipy的正确版本，为何会出现这个错误呢？解决方法是：卸载scipy，然后重新在网站上下载whl文件进行安装，...

2018-02-11 09:38:51 3156

原创 python：pickle作用

python3自带的有pickle模块，而python2中为Cpickle，pickle模块的主要作用是将数据结构化存储：一个字典a = {'name':'Tom','age':22}，用pickle.dump存到本地文件，所存数据的结构就是字典，而普通的file.write写入文件的是字符串。读取时，pickle.load返回的是一个字典，file.read返回的是一个字符串。如下代码：impo...

2018-02-11 09:38:14 1441

原创 ubuntu：linux/ubuntu下的命令行操作

1. 切换到自己当前用户的根目录：cd2.打开某个文件下的sh文件报权限不够的错误时：chmod 777 pycharm.sh 从而添加读写权限3.切换到上一层目录：cd..4.在某个目录下，如果不记得文件名，只记得部分，例如输入cda然后按Tab键，则后面会自动帮你填完整aa这个文件或文件夹5.ubuntu下安装pycharm，直接官网下载社区版（免费）解压即可，详见：http://www.cn...

2018-02-11 09:37:43 688

原创 ubuntu：linux/ubuntu设置python虚拟环境

目的：ubuntu系统下有多个用户，系统安装有python，但个人用户在使用时，因为需要安装的库不一样，如果每个人都将库文件安装在系统目录下，则会造成版本太多，不便管理的问题。因此需要将个人的目录建立一个虚拟环境，让自己安装的某些库只能自己使用，不会对其他人形成干扰。方法：1. 创建虚拟环境，参考：http://www.cnblogs.com/suke99/p/5788681.html2.如果需...

2018-02-11 09:37:16 267

原创 tensorflow：ConfigProto&GPU

tensorflow ConfigPrototf.ConfigProto一般用在创建session的时候。用来对session进行参数配置with tf.Session(config = tf.ConfigProto(...),...)#tf.ConfigProto()的参数 log_device_placement=True : 是否打印设备分配日志 allow_soft_placement=T...

2018-02-11 09:36:45 357

原创 tensorflow：linux系统tensorflow安装

1.安装tensorflow指定gpu版本：pip3 install --upgradehttps://storage.googleapis.com/tensorflow/linux/gpu/tensorflow_gpu-1.2.1-cp35-cp35m-linux_x86_64.whlcpu版本为：pip installhttps://storage.googleapis.com/tensorf...

2018-02-11 09:36:15 713

原创 tensorflow：get started

关于Tensorflow的基本介绍Tensorflow是一个基于图的计算系统，其主要应用于机器学习。从Tensorflow名字的字面意思可以拆分成两部分来理解：Tensor+flow。Tensor：中文名可以称为“张量”，其本质就是任意维度的数组。一个向量就是一个1维的Tensor，一个矩阵就是2维的Tensor。Flow：指的就是图计算中的数据流。当我们想要使用Tensorflow做什么事情的时...

2018-02-11 09:35:35 254

原创 python：解决pycharm运行py文件时只有unittest选项的方法

有时候在编完脚本开始运行时，发现某个py脚本右键运行的选项不是run，二是run in unittest，试过很多方法都不能很好的去除，主要是因为脚本中含有test字符串，一种解决方法是将脚本中所有的函数和类的test字符串改为其他的。但是此方法比较麻烦，需要改函数和类的名字，有一种根本的解决方法：File-> Settings -> Tools -> Python Integr...

2018-02-11 09:35:10 6857 2

原创 python：删除字符串中连续多个空格并保留一个

' '.join(line.split())例如：'line dd',运行line.split()得到只有两个元素的列表['line','dd']

2018-02-11 09:34:41 9137

原创 NLP：主题模型LDA介绍

（一）LDA作用传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少甚至没有，但两个文档是相似的。举个例子，有两个句子分别如下： “乔布斯离我们而去了。” “苹果价格会不会降？” 可以看到上...

2018-02-11 09:34:00 999

原创 NLP：sklearn中fit、fit_transform、transform的区别

参考：http://blog.csdn.net/qq_35082030/article/details/70338654fit原义指的是安装、使适合的意思，其实有点train的含义但是和train不同的是，它并不是一个训练的过程，而是一个适配的过程，过程都是定死的，最后只是得到了一个统一的转换的规则模型。transform：是将数据进行转换，比如数据的归一化和标准化，将测试数据按照训练数据同样的模...

2018-02-11 09:33:27 10133

原创 NLP：主题模型LDA+SVM进行文本分类

参考：http://www.cnblogs.com/pinard/p/6908150.htmlhttp://blog.csdn.net/TiffanyRabbit/article/details/76445909原理：使用LDA进行模型训练，得到每个文档的主题分布，即每个文档包含的每个主题的权重，此权重即可作为特征，然后将此特征进行svm训练，即可进行后续的文本的分类处理步骤：（1）文本分词，去除...

2018-02-11 09:32:53 9281

原创 python：解决python中的编码问题

python中的编码问题很让人头疼，python2和python3的处理方式不一样，这里只说python3的编码问题处理方法：utf8（输入） ——> unicode（处理） ——> （输出）utf8Python 里面处理的字符都是都是unicode 编码，因此解决编码问题的方法是把输入的文本（无论是什么编码）解码为（decode）unicode编码，然后输出时再编码（encode）成...

2018-02-11 09:32:24 408

原创 NLP：fasttext介绍

一、fasttext和word2vec的比较fasttext与word2vec是同一作者，所谓fasttext，不过是 word2vec中 cbow + h-softmax的灵活使用，灵活体现在两个方面：1. 模型的输出层：word2vec的输出层，对应的是每一个term，计算某term的概率最大；而fasttext的输出层对应的是分类的label。不过不管输出层对应的是什么内容，起对应的vec...

2018-02-11 09:31:59 465

原创 tensorflow：epoch、 iteration和batchsize的区别

参考：http://blog.csdn.net/sinat_30071459/article/details/50721565http://blog.csdn.net/ycheng_sjtu/article/details/49804041（1）batchsize：批大小，也就是在一次模型迭代/训练过程中所使用的样本数目（2）iteration：1个iteration等于使用batchsize个样...

2018-02-11 09:31:30 3139

原创 NLP：word2vec介绍

原理介绍请参考：https://www.leiphone.com/news/201706/PamWKpfRFEI42McI.html（经典）http://blog.csdn.net/zl_best/article/details/53433072http://blog.csdn.net/mytestmy/article/details/26961315word2vec的python...

2018-02-11 09:30:59 485

原创 NLP：使用深度学习进行文本分类的一些主要模型

参考：http://blog.csdn.net/liuchonge/article/details/77140719?locationNum=6&fps=1http://geek.csdn.net/news/detail/189196常见的模型有：（1）word2vec+分类器。这个应该是最简单的，因为word2vec本质上是由CNN网络生成词向量的一种深度学习模型（2）fasttext。...

2018-02-11 09:30:28 1708

原创 tensorflow：安装特定版本、获取版本号

安装特定版本：pip install tensorflow==1.2.0升级到最新版本：pip install --upgrade tensorflow获取tensorflow版本号：在idle命令行中输入import tensorflow——》回车——》tensorflow.__version__ （注意是双下划线）...

2018-02-11 09:29:41 8140

原创 tensorflow：函数最终

（1）tf.contrib.learn.preprocessing.VocabularyProcessor 说明：最终的结果为分词后的句子的索引表示形式，例如：原句为“我是中国人”，分词后为“我、是、中国人”，则最终结果为：“0,1,2”，表示“我”在词表中的位置为0 tf.contrib.learn.preprocessing.VocabularyProcessor...

2018-02-11 09:29:13 219

原创 python：数值字符串转数值

（1）str to numberstr1='1.2'i=int(str1) ;会报错invalid literal for int() with base 10: '1.2'，主要是因为int只能转数值为整数的字符串如果要转为int，可以采用如下方式：i=int(float(str1))...

2018-02-11 09:28:42 2862

原创 tensorflow：graph、session、tensor

参考：http://blog.csdn.net/xierhacker/article/details/53860379（1）tf.graph.as_default()表示tensorflow默认的图，如果要定义其它图，并在图中进行操作，则可以：graph1=tf.graph(),graph1.as_default()它能够在这个上下文里面覆盖默认的图（2）sess.as_default()，在该会...

2018-02-11 09:28:09 299

原创 tensorflow：freeze_graph

说明：freeze_graph，也就是将模型固化，具体讲就是将训练数据和模型固化成pb文件，tensorflow安装目录下有freeze_graph.py文件，该文件可以实现将pb数据文件和ckpt模型文件最终转为一个pb文件，但是实际中网络训练后得到meta、data、index几个文件，如果将这些文件进行固化呢？答案是将该文件简单改下就行，以tensorflow1.2版本为例。将源文件：...

2018-02-11 09:27:38 2548 2

原创其它：微信或qq截取四通道图像存储为bmp存在异常

微信或qq截取pdf中四通道的图像，如果保存为默认的png则由opencv读取时就正常，但转为bmp后图像软件打开也正常，但是opencv打开就异常：如下：右边会多出一部分区域，但图像大小还是之前的大小，只是显示在界面上就成这样的异常情况。所以截取屏幕图像时最好保持为png...

2018-02-11 09:27:04 487

原创 tensorflow：训练集、测试集、验证集

训练集（train)、验证集（validation）和测试集（test）的意义有监督的机器学习中，一般需要将样本分成独立的三部分训练集（train set），验证集（validation set)和测试集（test set）。其中训练集用来估计模型，验证集用来确定网络结构或者控制模型复杂程度的参数，而测试集则检验最终选择最优的模型的性能如何。训练集（train)、验证集（validation）和测...

2018-02-11 09:26:13 19973 5

2018-02-11 09:25:40 2883

原创 synergy使用

（1）分别在windows和ubuntu下安装对应软件，ubuntu下可以直接用命令行安装sudo apt-get install synergy（2）配置server端，注意电脑名称需要保持跟电脑一样（3）ubuntu命令行中输入 synergyc 192.168.202.132 (服务器端windows的IP地址)，即可实现连接（4）设置开机启动，在ubuntu系统中，在‘系统’－‘首选...

2018-02-11 09:24:36 1104

原创 ubuntu下jdk配置

参考：http://blog.csdn.net/xxy0118/article/details/73733136（1）下载jdk压缩包，并压缩到某个目录，比如/home（2）sudo vim ~/.bashrc文件的末尾追加下面内容:#set oracle jdk environmentexport JAVA_HOME=/home/jdk1.7.0_79export JRE_HOME=${JAVA...

2018-02-11 09:22:01 401

原创 ubuntu下maven安装

首次安装maven还是遇到一些问题，直接使用sudo apt-get install maven安装并对环境变量进行配置后总是报错，说JAVA_HOME没有配置，但是JAVA_HOME的系统变量和用户变量都已经配置，所以就尝试第二种方法，从官网下载二进制版，并解压配置。ubuntu系统变量和用户变量的区别是：系统环境变量是对所有用户的，而用户变量是对当前用户的。如果是系统变量，则设置如下；（1）s...

2018-02-11 09:21:33 533

原创 NLP：RNN原理介绍

1.首先参考CNN和RNN文本分类对比：http://blog.csdn.net/baoyan2015/article/details/64438530http://blog.csdn.net/u010223750/article/details/514378542.RNN做文本分类，相当于把每个词作为一个时间节点，把词向量作为每个单元的输入特征...

2018-02-11 09:20:28 908

原创 NLP：RNN-Attention

参考文章：http://blog.csdn.net/thriving_fcl/article/details/73381217

2018-02-11 09:19:53 207

原创深度学习：CNN中RGB图像的卷积

参考：http://blog.csdn.net/u014381600/article/details/60883856 http://blog.csdn.net/u014114990/article/details/51125776 https://www.leiphone.com/news/201709/AzBc9Sg44fs57hyY.html...

2018-02-11 09:19:21 1427

原创 java: Failed to load class "org.slf4j.impl.StaticLoggerBinder"

解决程序报 SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder". 错误调试程序出现如下错误:SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4J: Defaulting to no-operation (NOP) logger imp...

2018-02-11 09:18:52 402

原创深度学习：吴恩达深度学习课程笔记之CNN

1. 每一个滤波器的维度与该层的特征图个数一致，而不简单是一个二维矩阵，比如神经网络的输入为RGB图像（大小为11*11），则第一层使用两个3*3滤波器进行卷积，实际的滤波器应该为3*3*3，输出为9*9*2，即RGB图像经过3*3*3卷积后为二维图像9*9，而两个滤波器会生成两个9*9图像，即9*9*22.图像处理中的卷积操作实际上并不是信号处理中的真正意义上的卷积，而是相关操作，因为实际计算时...

2018-02-11 09:18:12 739