自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Lionel的博客

不积跬步,无以至千里;不积小流,何以成江海......

  • 博客(57)
  • 收藏
  • 关注

原创 tensorflow 常见问题

记录在使用 tensorflow 框架开发代码时遇到的问题,会不间断更新。1. ‘TFOptimizer’ object has no attribute ‘lr’问题描述:在使用 ReduceLROnPlateau 做学习率衰减时,出现以下问题:问题原因,在使用优化器时使用的 tf 自带的 Adam 优化器(tf.train.AdamOptimizer),该优化器无 lr 属性,改为 t...

2019-01-25 18:16:55 849

原创 Miniconda安装

官网下载miniconda,下载完成后目录下有Miniconda3-latest-MacOSX-x86_64.sh 文件;执行命令sh Miniconda3-latest-MacOSX-x86_64.sh安装;配置环境变量,由于我安装了 zsh(让终端看起来更酷),在.zshrc 文件把 minicode 路径加入 PATH即可;操作命令: 1. 查看版本: conda -...

2018-10-31 14:40:53 3515

原创 python编程遇见的坑

python2和python3中的map 函数def square(x): return x**2 map(squre, [1,2,3,4,5])分别在 python2和 python3环境执行以上代码,执行结果如下python2: [1, 4, 9, 16, 25]python3: <map object at 0x101e9b710>如果想要看具体内容,需要使用li...

2018-09-27 18:17:58 273

原创 linux shuf 命令

shuf 命令在算法训练过程中,训练集处理时都会把其打乱,之前的做法是写个脚本。今天发现可以使用 linux 命令就能解决,而且效率很高,这个命令就是 shuf。下载shuf 命令是 coreutils 包中的命令,所以需要下载,可以使用 yum 或者 brew 工具下载yum install coreutils or brew install coreutils配置如果你想要...

2018-09-21 15:38:09 5864 1

原创 python2 安装 tensorflow 遇到问题

使用pip install --upgrade tensorflow出现以下问题:这是因为安装 grpcio 出错了,解决方案:pip install --no-cache-dir --only-binary :all: grpcio==1.10.1pip install tensorflow==1.8.0...

2018-09-19 20:41:34 7648 1

原创 【tensorflow】模型存储和恢复

  tensorflow中,模型的存储和恢复使用tf.train.Saver类,模型存储使用该类的 save 方法。模型恢复使用restore 方法。模型存储  模型存储使用tf.train.Saver.save()方法。以saver.save(sess, 'model/model.ckpt')为例,在model路径下会有四个文件(如下图) checkpoint 记录保存信息,...

2018-05-29 11:44:56 320

原创 【tensorflow】数字识别 — cnn 算法

  在《数字识别-softmax 回归》和《数字识别-rnn 算法》两篇博文中分别介绍了使用 softmax 和 rnn 算法来对数字进行识别,并且 rnn 算法相对于 softmax 回归的基础得到了很大的提升,而在图片分类中,cnn 算法一直是主导,本篇博文将介绍使用 rnn 算法来进行数字识别。import tensorflow as tf from tensorflow.exam...

2018-05-29 00:24:53 1099

原创 【tensorflow】数字识别 — rnn 算法

  在数字识别- softmax回归文章中使用softmax回归算法对图片进行分类,准确率在92%左右,那么如何使算法准确率得到提升了?本篇文章将使用 rnn 神经网络算法进行数字识别。import tensorflow as tffrom tensorflow.contrib import rnnfrom tensorflow.examples.tutorials.mnist i...

2018-05-28 20:16:19 573

原创 【tensorflow】数字识别— softmax 回归

  提到多分类任务,立马会想到使用 softmax 回归,这篇文章主要讲述在 tensorflow 平台使用 softmax 回归方法对 mnist 数据进行数字识别。import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data# 读取数据mnist_data = input_da...

2018-05-28 19:37:53 297

原创 【tensorflow】tf.Variable、tf.constant、tf.placeholder

  张量(Tensor)是TensorFlow的核心数据单位。一个张量由一组形成阵列(任意维数)的原始值组成。张量的阶是它的维数,而它的形状是一个整数元组,指定了阵列每个维度的长度。 下面会介绍 Tensorflow 中几个特殊张量: - tf.Variable - tf.constant - tf.placeholdertf.Variable  Tensorflo...

2018-05-28 18:35:33 5610

原创 【tensorflow】初探 tensorflow

  使用 tensorflow 来拟合 y = 0.1*x + 0.3import tensorflow as tfimport numpy as np# 创建训练集x_data = np.random.rand(100).astype(np.float32)y_data = x_data * 0.1 + 0.3# 创建 W, b W = tf.Variable(tf.rand...

2018-05-28 16:48:50 198

原创 【tensorflow】安装和卸载

基于 virtualenv 安装安装:打开终端(a shell);安装 pip(如果之前没有安装的话) 和 virtualenv : $ sudo easy_install pip $ sudo pip install --upgrade virtualenv建立一个新的 virtualenv 环境 : $ virtualenv --system-site...

2018-05-28 16:33:33 17904

原创 [ElasticSearch]数据类型keyword和text的区别

ElasticSearch数据类型keyword和text的区别在 ES2.x 版本字符串数据是没有 keyword 和 text 类型的,只有string类型,ES更新到5版本后,取消了 string 数据类型,代替它的是 keyword 和 text 数据类型,那么 keyword 和 text 有什么区别了? Text 数据类型被用来索引长文本,比如说电子邮件的主体部分或者一款产品的介绍。

2017-10-27 18:00:25 30485 1

原创 [ElasticSearch]使用 java API 进行CRUD操作

本篇文章将介绍怎样使用 java 对 ElasticSearch 进行操作。 首先需要建立一个 maven 项目,这里不再赘述。 1.在maven 的 pom.xml文件中需要引入以下几个 jar 包<dependency> <groupId>org.elasticsearch.client</groupId> <artifactId>transport</art

2017-10-25 19:54:50 4807

原创 [ElasticSearch]基本操作

ElasticSearch文档管理(CRUD)本篇文章将介绍使用 REST API 来进行文档的简单创建、更新、读取和删除操作;创建文档curl -XPUT "http://localhost:9200/<index>/<type>/[<id>]"其中,索引和类型是必须要进行指定的,id 可选可不选。如果不指定 id,ES 会自动生成一个 id,看下面一个例子:curl -XPOST "http:/

2017-10-25 17:50:53 424

原创 [ElasticSearch]Kibana插件安装

Kibana 安装1.下载安装kibanawget https://artifacts.elastic.co/downloads/kibana/kibana-5.6.3-linux-x86_64.tar.gzsha1sum kibana-5.6.3-linux-x86_64.tar.gz tar -xzf kibana-5.6.3-linux-x86_64.tar.gz2.执行kibana 进

2017-10-25 12:00:05 1097

原创 [ElasticSearch]5.x版本安装

ElasticSearch5.x 安装1.java8,安装 ES5.x 版本必须要有 java 8的环境; 2.下载 ElasticSearch5.x,使用以下命令进行下载。可以去官网进行下载,本篇文章安装的是5.6.3版本;curl -L -O https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.6.3.tar

2017-09-26 17:15:47 694

原创 数据结构之kd树

最近又把机器学习中最近邻算法看了下,为了能够让算法更有效率,提到了用 KD 树来存储数据信息,所以就学习了 kd 树。   kd 树(K-dimensional tree)是一种对k维空间的实例点进行存储以便对其进行快速检索的属性数据结构。kd 树是二叉树,表示对 k 维空间的一个划分。构造 kd 树相当于不断地用垂直于坐标轴的超平面将 k 维空间切分,构造一系列的 k 维超矩形区域。很适合应用于高

2017-07-02 18:38:59 1338

原创 数据结构之三分搜索树

上一篇博文介绍了字典树(Tire Tree),它的结构简单、实现也很容易,但是,它也有自己的缺点,就是空间效率低,占用内存大。英文有26个字母,每个节点保存26个指向字母的指针(其中很大部分会是空指针),全部存下要262626^{26},占用空间之大可想而知。中文的汉字有5万多,要是存储起来,内存耗用会更加严重,以至于不可行。所以需要考虑用另外一种数据结构来进行存储,三分搜索树(ternary se

2017-07-02 18:37:25 1487

原创 数据结构之字典树

Tire Tree,又名字典树,是一种树形结构。常用于统计、排序和保存大量的字符串,比如说,在自然语言处理中,常用来统计词频。优点是查询效率高。  Trie Tree 具有以下三个性质: 1. 根节点不包含字符,除根节点意外每个节点只包含一个字符; 2. 从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串; 3. 每个节点的所有子节点包含的字符串不相同。Tire Tree

2017-07-02 18:34:55 293

原创 Scrapy爬虫实战

最近,想好好学习下Scrapy爬虫框架,一种很强大的 python 爬虫框架,在观看了极客学院的课程后,自己实现了用 Scrapy爬虫豆瓣电影 top250,并存于 mysql 数据库中。接下来就开始介绍实现过程。   首先来看看网页结构   对应的html 代码为:   如上图所示,主要是爬取出电影的名称、电影简要介绍、豆瓣评分、电影概括。  环境安装:pip3 install -U

2017-06-07 22:53:33 9268 3

原创 自然语言处理系列之Viterbi算法

前面已经介绍了隐马尔可夫模型,本篇博文主要是介绍用 viterbi 算法来解决 HMM 中的预测问题,也称为解码问题。   维特比算法实际是用动态规划解隐马尔可夫模型预测问题,即用动态规划(dynamic programming)求概率最大路径(最优路径)。这时一条路径对应着一个状态序列。   根据动态规划原理,最优路径具有这样的特性:如果最优路径在时刻t通过(it)∗(i_t)^*,那么这一路

2017-04-16 17:37:04 4568

原创 自然语言处理系列之隐马尔可夫模型(HMM)

定义 设QQ是所有可能的状态的集合,V是所有可能的观测的集合。 Q={q1,q2,...,qN},V={v1,v2,...,vM}Q=\{q_1,q_2,...,q_N\},V=\{v_1,v_2,...,v_M\} 其中,NN是可能的状态数,MM 是可能的观测数。 状态qq是不可见的,观测vv是可见的。应用到词性标注系统,词就是vv,词性就是qq。 II是长度为TT的状态序列,OO是对应

2017-04-16 17:33:48 2200

原创 机器学习系列之逻辑回归

前一篇博客介绍了线性回归,纵使可以撇开 y 是离散值得事实,给定 x, 使用线性回归对 y 进行预测,可以找到很多示例说明这种预测结果不会很好,比如说,房价不可能随着面积大小线性增长。并且当我们知道 y 的取值范围在{0,1}时,预测结果大于 1 或者小于 0 已经没有了意义。怎样解决这个问题?可以使用逻辑回归。逻辑回归于线性回归有很多相似之处,最大的不同在于他们的因变量不同。线性回归用来预测连续变

2017-03-31 23:51:39 361

原创 机器学习系列之线性回归

一元线性回归在机器学习中,线性回归被用来对连续型数据进行预测,来确定两种或者两种以上变量间的相互关系。本篇博客介绍线性回归的最简单的一种情况——一元线性回归。如下图,现在我们在图上画一系列的点,然后打算花一条线,这些点到这条线的距离尽可能的短。那么该怎么找到这条线了?线性回归就是很好的解决方法。 首先,假设 y 和 x 满足下面的一元线性关系: y=θ0+θ1xy=\theta_0 + \t

2017-03-31 23:50:24 337

原创 机器学习系列之朴素贝叶斯算法

朴素贝叶斯算法贝叶斯定理想必大家很早就已经了解,朴素贝叶斯算法就是基于贝叶斯定理提出的一种监督机器学习算法。为什么叫“朴素”了?那是因为朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。给定类变量 y (这里一个样本仅属于一类) 和一个相互独立的特征向量 x1x_1 到 xnx_n,贝叶斯定理可得到如下关系: P(y∣x1,…,xn)=P(y)P(x1,…xn∣y)P(x1,…

2017-01-23 16:45:48 527

原创 Python-读写文件

python在写python 代码的过程,我发现在读写文件的过程中有的时候会出现点问题,所以还是想花点时间总结一下,加深一下自己的印象。读文件python 中可以用 内置的open()函数来打开一个文件。源码中是这样定义的open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=Tru

2017-01-15 20:08:46 484

原创 doc2vct算法实现

本篇文章主要是实现Python 自然语言处理包 gensim 中用于长文本向量建模的 doc2vec算法。示例代码如下:#!/usr/bin/env python3# -*- coding: utf-8 -*-import loggingimport multiprocessingimport os.pathimport sysfrom gensim import utilsfrom g

2017-01-15 14:25:48 846

原创 word2vct算法实现

本篇文章主要是实现python 自然语言处理包 gensim 中用于词向量建模的 word2vec算法。示例代码如下:# encoding=utf-8import loggingimport sysfrom gensim.models import Word2Vecif __name__ == '__main__': logging.basicConfig(format='%(asctim

2017-01-15 14:09:26 614

原创 Mysql-分页查询优化

分页查询优化分页查询在 mysql 中常遇到,如以下语句select * from TableName limit 100,20;用时大约需要0.03 sec。用时很短。但是随着偏移量的增加,查询时间也随之增加。比如如下代码:select * from TableName limit 10000000,20用时大约需要32.43 sec,这个时间是不是就有点长了了?可以优化吗?答案是可以的。那么,该

2016-12-27 20:57:14 581

原创 机器学习系列之梯度下降法

梯度下降法梯度下降法又叫最速下降法,是一种最优化算法。它用负梯度方向为搜索方向的,最速下降法越接近目标值,步长越小,前进越慢。 梯度下降法的计算过程就是沿着梯度下降的方向求解极小值。(亦可以沿着梯度上升的方向求解极大值)。它的迭代公式为: ak+1=ak+γks−(k)(式1−1)a_{k+1}=a_{k}+\gamma_ks^{-(k)}(式1-1) 其中,s−(k)s^{-(k)}代表的是

2016-12-25 16:11:53 594

原创 利用编辑距离计算文本相似性

文本相似性编辑距离什么是编辑距离? 看下百度百科的介绍:编辑距离(Edit Distance),又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。 比如说: kitten->sitten (k→s) sitten->sittin (e

2016-12-22 00:02:44 1895

原创 利用余弦计算文本相似性

余弦相似性余弦的概念对我们来说并不陌生,中学数学就开始接触余弦的概念了,在三角形中,余弦的公式是: cosα=b2+c2−a22bc(式1−1)\begin{equation}cos\alpha=\frac{b^2+c^2-a^2}{2bc}(式1-1)\end{equation}在向量表示的三角形中,假设向量 a⃗ =(x1,y1)\vec{a}=(x_1,y_1) , b⃗ =(x2,y2

2016-12-21 23:15:58 4006 1

原创 机器学习系列之最小二乘法

最小二乘法最小二乘法,又称最小平方法,是机器学习中基础的算法之一,它是一种优化算法,通过最小化误差的平方来寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。在机器学习中,还可以使用最小二乘法来进行曲线拟合。 上图介绍的上海市长宁区部分房价的信息,从散点图可以发现,房子的大小和房价彼此之间有一些依赖关系,由房子大小可以决定房子的价格

2016-12-18 19:09:24 935

原创 自然语言处理系列之TF-IDF算法

TF-IDF算法TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。该算法在数据挖掘、文本处理和信息检索等领域得到了广泛的应用,如从一篇文章中找到它的关键词。TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文

2016-12-16 23:55:39 26268 4

原创 Hive-行转列和列转行

Hive行转列和列转行表1:cityInfo 表 cityname regionname 上海 四川北路 上海 虹梅路 上海 音乐学院 上海 徐家汇 上海 陆家嘴 上海 古北 北京 东四 北京 复兴门 北京 新街口 北京 地安门- 表2:cityInfoSet cityname regionname 上

2016-12-13 21:03:22 8243 4

原创 Java-动态代理模式

动态代理模式静态代理jdk动态代理代码示例package com.myapp.pattern.proxypattern.dynamicpattern.jdk;/** * Created by lionel on 16/11/23. */public interface TicketService { /** * 卖票 */

2016-12-04 16:42:56 870

原创 Java-图片格式

Java图片格式这两天在处理网络图片数据时,需要对不同格式的图片采用不用的处理办法,这就需要掌握图片的格式识别。结合这两天的学习内容,对其进行总结,以备将来不是之需。通过 url常见的图片格式有jpg(jpeg),png,gif这三种,可以分别通过字符创的contains(“jpg”);contains(“png”); contains(“gif”) 来获取对应格式的图片,这种方法我认为是简单粗暴

2016-12-02 23:26:29 4555

原创 Java-矩阵运算

java矩阵运算在学习机器学习算法时,发现运用java 来实现有些算法代码时,会有很大困难,其中有一点就是 java 本身并没有矩阵运算的 api,所以进行要实现矩阵运算就尤其复杂,在知乎上得知 java 有一个非常强大的矩阵学习库UJMP(Universal Java Matrix Package),就去其官方网站学习了下,感觉非常棒,对其中自己比较常用的运算进行了测试。下载通过 maven

2016-11-29 21:55:57 32209 2

原创 Python-爬虫

python爬虫本篇博文是观看了慕课网的python爬虫课程—–爬取百度百科python词条以及相关词条的1000个页面。自己的笔记以及代码的实现。什么是爬虫? 一段自动抓取互联网信息的程序。互联网是有一个个的网页组成,而每一个网页又有着对应的 URL 。每一个 URL 页面上又有指向其它页面的 url,这中 URL 的相互指向关系构成了一个网状结构。传统的方法是用人工的方法去获取互联网的信息,

2016-11-27 12:54:36 587

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除