自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

大学之道,在明明德

Focus on Recommendation System, NLP, Deep Learning, Machine Learning, Data Mining.

  • 博客(45)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 我的Tensorflow学习之路

最近两年深度学习真的是火的不要不要的,关于深度学习,每个人都有自己的看法。有人说就是炼丹,得个准确率召回率什么的,拿到实际中,问问为什么,都答不上来。各种连代码都没写过的人,也纷纷表示这东西就是小孩堆积木,然后整个大功耗的服务器跑上几天,调调参数。然后每个实验室招生,都说自己是做什么深度学习,机器 学习,大数据分析的,以此来吸引学生。可是可是,他们实验室很可能连一块 GPU 都没有。小时候,我

2017-09-27 16:36:58 21606 13

翻译 (译)理解 LSTM 网络 (Understanding LSTM Networks by colah)

@翻译:huangyongye原文链接: Understanding LSTM Networks前言:其实之前就已经用过 LSTM 了,是在深度学习框架 keras 上直接用的,但是到现在对LSTM详细的网络结构还是不了解,心里牵挂着难受呀!今天看了 tensorflow 文档上面推荐的这篇博文,看完这后,焕然大悟,对 LSTM 的结构理解基本上没有太大问题。此博文写得真真真好!!!为了帮

2017-02-28 16:38:14 55174 16

原创 自定义auc函数+分布式计算方式分析

自定义auc函数sklearn 中自带的auc函数AUC 的计算方式如下:AUC=∑iP∗NI(scorepos>scoreneg)P∗NAUC=\frac{\sum_i^{P*N} I(score_{pos} > score_{neg})}{P*N}AUC=P∗N∑iP∗N​I(scorepos​>scoreneg​)​其中 P 表示正样本的数量,N表示负样本的数量。分母就是所有(正样本,负样本)对,每个样本对对应的分数是(scoreposscore_{pos}scorepos​

2020-08-05 16:50:23 161

原创 Sketch Learning - SVG 生成 PNG 和坐标序列

整个项目的代码在我的 GitHub 上面: https://github.com/yongyehuang/svg_parser ,直接 download 后可以使用。首先需要安装的一些 python 库:pip install svgwritepip install svgpathtoolspip install wand1. svg 生成 pngrefer: http

2018-01-27 18:20:45 1519 3

原创 Sketch Learning - SVG 是什么?

SVG 简介在 Sketch(草图)研究中,我们经常会遇到 SVG 格式的图像文件。和 PNG 不同,SVG是一种矢量图,它可以保存草图绘图过程中每个笔画的坐标信息。所以,理解 SVG 对于研究草图是很有意义的。PNG 实际上是像素点,是一个矩阵,比如 RGB 三通道的 224 * 224 像素的一张 PNG 图片,就是一个 224 * 224 * 3 的实数矩阵。但是 SVG 则是一门编

2018-01-26 15:47:52 947

原创 XGBOOST + LR 模型融合 python 代码

XGBOOST + LR (XGBOOST grid search)先留个广告,最近做一个数据挖掘的比赛,主要用的就是 xgboost,等比赛完后年前好好整理代码开源,到时候代码会比下面整份完整。XGBOOST + LR 是 CTR 常用的一种方式。下面是实现 XGBOOST + LR 的代码,具体的原理不做细说。有了下面的代码框架,你可以对 xgboost 进行参数优化搜索,同时可以利用

2018-01-08 18:16:11 11392 6

原创 LR(Logistic Regression) & XGBOOST 学习笔记

LR(Logistic Regression) & XGBOOST 在 CRT中的应用此文将持续更新,欢迎指导交流~立志要成为一位优秀炼丹师的我搞起 CRT 来突然压力山大。数据是最最主要的原因,而且毕竟调得少,慢慢攒点经验吧。在 CRT 中,最大的两个问题就是: - 数据不均衡。在投放的大量广告中真正转化的样本数量很少。 - 数据稀疏。每个样本的特征信息都不太全。LR 和 X

2017-12-28 17:21:49 5964 2

原创 二分类结果分析工具函数

下面代码是我总结的针对二分类问题的预测结果分析工具函数。 代码中有详细的文档说明。所以可以直接看代码。# -*- coding:utf-8 -*-from __future__ import print_functionfrom __future__ import divisionimport numpy as npimport pandas as pdimport matplotlib.p

2017-12-28 12:03:58 1448

原创 tensorflow 问题与解决

1.no supported kernel for GPU devices is available.# 加上下面一行就可以使用 个gpu了config = tf.ConfigProto(allow_soft_placement=True)# 这一行设置 gpu 随使用增长,我一般都会加上config.gpu_options.allow_growth = True

2017-11-23 16:38:34 11274 6

原创 TensorFlow入门(十-III)tfrecord 图片数据 读写

本例代码:https://github.com/yongyehuang/Tensorflow-Tutorial/tree/master/python/the_use_of_tfrecord 关于 tfrecord 的使用,分别介绍 tfrecord 进行三种不同类型数据的处理方法。 - 维度固定的 numpy 矩阵 - 可变长度的 序列 数据 - 图片数据 在 tf1.3 及以后版本中,推出了

2017-11-21 17:19:57 8105 7

原创 TensorFlow入门(十-II)tfrecord 可变长度的序列数据

本例代码:https://github.com/yongyehuang/Tensorflow-Tutorial/tree/master/python/the_use_of_tfrecord 关于 tfrecord 的使用,分别介绍 tfrecord 进行三种不同类型数据的处理方法。 - 维度固定的 numpy 矩阵 - 可变长度的 序列 数据 - 图片数据 在 tf1.3 及以后版本中,推出了

2017-11-21 17:16:06 8172 6

原创 TensorFlow入门(十-I)tfrecord 固定维度数据读写

本例代码:https://github.com/yongyehuang/Tensorflow-Tutorial/tree/master/python/the_use_of_tfrecord 关于 tfrecord 的使用,分别介绍 tfrecord 进行三种不同类型数据的处理方法。 - 维度固定的 numpy 矩阵 - 可变长度的 序列 数据 - 图片数据 在 tf1.3 及以后版本中,推出了

2017-11-21 17:13:10 2876 1

原创 TensorFlow入门(九)使用 tf.train.Saver()保存模型

关于模型保存的一点心得saver = tf.train.Saver(max_to_keep=3)在定义 saver 的时候一般会定义最多保存模型的数量,一般来说,如果模型本身很大,我们需要考虑到硬盘大小。如果你需要在当前训练好的模型的基础上进行 fine-tune,那么尽可能多的保存模型,后继 fine-tune 不一定从最好的 ckpt 进行,因为有可能一下子就过拟合了。但是如果保存太多,硬盘也有

2017-11-21 16:59:28 28271 5

原创 TensorFlow入门(八)tensorboard 的一个简单示例

关于 tensorboard 的一点心得1.一定要学会使用 tf.variable_scope() 和 tf.name_scope(),否则稍微复杂一点的网络都会乱七八糟。你可以通过上图中的 graph 来看看自己构建的网络结构。2.使用 tensorboard 来看 training 和 validation 的 loss 和 accuracy 变化对于调参非常非常有帮助。经验足的炼丹选手通过

2017-11-21 16:45:38 7879 1

原创 2017知乎看山杯总结(多标签文本分类)

关于比赛详情,请戳:2017 知乎看山杯机器学习挑战赛代码:https://github.com/yongyehuang/zhihu-text-classification 基于:python 2.7, TensorFlow 1.2.1任务描述:参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型。标注数据中包含 300 万个问题,每个问题有 1 个或多个标

2017-08-31 21:59:53 21937 10

原创 Python+不同的数据存储方式比较

本文来探索一下python中提供的各种数据保存格式的性能如何。主要以一个 ndarray 格式的数据进行处理分析。包括下面几种方式:.bin格式, tofile() 和 fromfile().npy格式,save() 和 load().txt 或者 .csv格式,savetxt() 和 loadtxt().h5 文件.pkl 文件import numpy as npfrom __fut

2017-07-03 17:26:37 7721 1

原创 python+HMM之维特比解码

HMM 回顾《统计学习方法》 p.174隐马尔科夫模型(HMM)有三个基本的问题(1)概率计算问题。给定模型 λ=(A,B,Pi)\lambda = (A, B, Pi) 和观测序列 O(o1,o2,...,oT)O(o_1, o_2, ..., o_T),计算在模型 λ\lambda 下观测序列 OO 的概率 P(O|λ)P(O|\lambda)(2)学习问题。已知观测序列 O(o1,o2,.

2017-06-28 13:49:13 4068

原创 pandas apply 函数 多进程实现

@creat_data: 2017-05-08 @author: huangyongye 前言: 在进行数据处理的时候,我们经常会用到 pandas 。但是 pandas 本身好像并没有提供多进程的机制。本文将介绍如何来自己实现 pandas (apply 函数)的多进程执行。其中,我们主要借助 joblib 库,这个库为python 提供了一个非常简洁方便的多进程方法。所以,本文将按照下面的

2017-05-08 17:13:36 15494

原创 pymongo 和 xpath 基本操作

@creat_data: 2017-05-01 @author: huangyongye前言: 相信有不少人和我一样,最开始学习 python 就是为了写个爬虫脚本从网上抓数据。第一次从网页上抓取信息的感觉很爽。那时候用得最多的莫过于正则表达式,但是很久没用,基本也都忘光了。后来学习了 xpath 神器,简直所向披靡,比正则方便多了。对于文本数据,抓取下来后存在 mongodb 中是个很不错的选择

2017-05-07 11:19:16 1048

翻译 (译)神经网络基础(2):Softmax 分类函数

Softmax 分类函数本例子包括以下内容: * softmax 函数 * 交叉熵(Cross-entropy) 损失函数在上一个例子中,我们介绍了如何利用 logistic 函数来处理二分类问题。对于多分类问题,在处理多项式 logistic 回归(multinomial logistic regression)中,用到 logistic 函数的一种扩展形式,叫做 softmax 函数。下面的

2017-05-05 16:54:58 3708

翻译 (译)神经网络基础(1):Logistic 回归

点击阅读原文Logistic 回归本例子包括以下内容: * logistic sigmoid 函数 * 交叉熵(Cross-entropy)损失函数在分类问题中,我们希望神经网络最后输出每个类别的概率分布 tt 。对于二分类问题, t=1t=1 或者 t=0t=0,我们可以使用 logistic 回归 中的 logistic sigmoid 函数。下面的内容将会介绍 logistic sigm

2017-05-04 19:21:49 2100

原创 TensorFlow入门(七) 充分理解 name / variable_scope

欢迎转载,但请务必注明原文出处及作者信息。@author: huangyongye @creat_date: 2017-03-08 前言: 本例子主要介绍 name_scope 和 variable_scope 的正确使用方式,学习并理解本例之后,你就能够真正读懂 TensorFlow 的很多代码并能够清晰地理解模型结构了。之前写过一个例子了: TensorFlow入门(四) name / v

2017-04-26 17:27:22 45271 8

原创 TensorFlow入门(六) 双端 LSTM 实现序列标注(分词)

@author: huangyongye @creat_date: 2017-04-19 reference: - [1] 【中文分词系列】 4. 基于双向LSTM的seq2seq字标注 http://spaces.ac.cn/archives/3924/ - [2] https://github.com/yongyehuang/TensorFlow-Examples/blob/mas

2017-04-22 20:00:22 38499 38

原创 TensorFlow入门(五)多层 LSTM 通俗易懂版

欢迎转载,但请务必注明原文出处及作者信息。@author: huangyongye @creat_date: 2017-03-09 前言: 根据我本人学习 TensorFlow 实现 LSTM 的经历,发现网上虽然也有不少教程,其中很多都是根据官方给出的例子,用多层 LSTM 来实现 PTBModel 语言模型,比如: tensorflow笔记:多层LSTM代码分析 但是感觉这些例子还

2017-03-10 12:28:59 127765 94

原创 TensorFlow入门(四) name / variable_scope 的使用

name/variable_scope 的作用欢迎转载,但请务必注明原文出处及作者信息。@author: huangyongye @creat_date: 2017-03-08 refer to: Sharing Variables name / variable_scope 详细理解请看: TensorFlow入门(七) 充分理解 name / variable_scope* 起因:在运行

2017-03-08 18:08:55 22897 1

原创 TensorFlow入门(三)多层 CNNs 实现 mnist分类

深入MNISTrefer: http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/mnist_pros.html @author: huangyongye @date: 2017-02-24之前在keras中用同样的网络和同样的数据集来做这个例子的时候。keras占用了 5647M 的显存(训练过程中设了 validation_s

2017-02-25 17:56:50 13110 11

原创 TensorFlow入门(二)简单前馈网络实现 mnist 分类

两层FC层做分类:MNISTrefer: http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/mnist_beginners.html @author: huangyongye @date: 2017-02-24在本教程中,我们来实现一个非常简单的两层全连接层来完成MNIST数据的分类问题。 输入[-1,28*28], FC1

2017-02-25 16:40:15 7225 4

原创 TensorFlow入门(一)基本用法

TensorFlow入门(一)基本用法refer to: http://wiki.jikexueyuan.com/project/tensorflow-zh/get_started/basic_usage.html @author: huangyongye @date: 2017-02-25本例子主要是按照 tensorflow的中文文档来学习 tensorflow 的基本用法。按照文档说明,主

2017-02-25 16:37:06 44114 9

原创 numpy 常用操作

numpy提供了ndarray和matrix两种类型的数据,为我们进行科学运算提供了非常便捷的运算工具。相对来说,我觉得其实还是MATLAB对于矩阵运算的支持更加直观易操作,但是作为Python使用者,怎能不把numpy用熟用透呢。在numpy中,同样一种操作可能提供了很多种不同的方式,具体怎么来实现完全是使用者个人习惯。对于和我一样的菜鸟,我觉得最好是从一开始就养成较好的操作习惯。numpy的二维

2017-02-10 12:37:17 4015

原创 为什么要用稀疏自编码而不直接设更少的隐层节点

刚学自编码,以下是本人关于题目问题的一点思考。自编码器是一种非常简单的BP神经网络,是一种无监督学习算法。使用一个三层(只有一个隐含层)的自编码网络,然后设置隐含节点的数量少于输入层节点,就能够轻松地实现特征降维。如图:refer to: Deep Learning(深度学习)学习笔记整理系列之(四) 如果隐藏节点比可视节点(输入、输出)少的话,由于被迫的降维,自编码器会自动习得训练样本的特征

2016-12-23 21:42:26 2887

原创 seq2seq学习笔记

@author: huangyongye1. RNN基础对于RNN,我看到讲得最通俗易懂的应该是Andrej发的博客: The Unreasonable Effectiveness of Recurrent Neural Networks这里有它的中文翻译版本: 递归神经网络不可思议的有效性如果想了解 LSTM 的原理,可以参考这篇文章:(译)理解 LSTM 网络 (Understanding

2016-12-20 11:41:15 73570 17

原创 ubuntu 下GPU版的 tensorflow / keras的环境搭建

本文主要介绍如何在 ubuntu 系统中配置 GPU 版本的 tensorflow 环境。主要包括:- cuda 安装- cudnn 安装- tensorflow 安装- keras 安装

2016-12-16 17:11:51 8862

转载 ipython notebook使用教程

最近在使用jupyter notebook,感觉非常舒爽。特别是在本地的浏览器上就可以利用jupyter实现在服务器上编程,更是爽歪歪了。关于如何实现本地浏览器上进行服务器上编程参照了这篇文章:Ubuntu环境下Anaconda安装TensorFlow并配置Jupyter远程访问.另外,亲测发现ipython运行速度比使用pycharm快(这是为什么呢?)***

2016-11-21 00:05:32 23567

原创 高斯消元法求解线性方程组(附python代码)

输入:a是m×n的系数矩阵,b是m×1的(列)向量。 输出:方程组的通解。用高斯消元法(行化简法)解线性方程组步骤1.构造方程组的增广矩阵2.从最左边列往右,使用行化简算法把增广矩阵化为阶梯形,确定矩阵是否有解: 若最后一列为主元列(最后一行非零行形如 [0 0 0 5]),无解,返回无解。3.继续行化简,把主元上面的所有的元素都化为0,把主元位置变成1.4.把每个主元列对应的变量表示

2016-11-18 16:53:25 8395 1

原创 PCA的Python实现

PCA的Python实现pca讲解:http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.htmlpython实现:http://blog.csdn.net/u012162613/article/details/42177327 """总的代码.Func: 对原始的特征矩阵进行降维, lowDataMat为降维之后返回新的特

2016-11-16 17:04:49 2606

转载 huffman树在word2vec中的应用原理

最近学习word2vec,关于word2vec在python中的使用在《 python 下的 word2vec 学习笔记》中进行了介绍。下面是看的一篇主要介绍huffman树在word2vec中的应用原理解释,感觉写得非常棒,所以转发一下!原文链接:http://xiaoquanzi.net/?p=156 2013年末,Google发布的word2vec引起了一帮人的热捧,

2016-11-14 14:16:48 2753

原创 python 下的 word2vec 学习笔记

1.ubuntu下安装gensimrefer to: ubuntu 14.04 安装gensim为了保证安装成功,首先升级一下easy_install工具。sudo easy_install -U setuptools之后使用easy_install进行安装,使用apt-get安装会遇到编码出错,不知为什么,使用easy_install安装成功就行了。sudo easy_install --upgr

2016-10-29 22:43:48 40897 1

原创 ubuntu繁简体转换 opencc的安装与使用

最近在看word2vec的使用,看的是下面这个教程:中英文维基百科语料上的Word2Vec实验。opencc介绍opencc是一款非常实用的繁简体字转换工具,转换速度非常快而且效果非常好。看了教程上面的各种安装方式介绍,最后才发现其实直接使用apt-get命令安装就能正常使用了。opencc安装与使用" 一行命令搞定安装 "sudo apt-get install opencc" 一行命令使用 "

2016-10-29 13:59:26 7894 2

转载 采用集成学习算法提高分类器的准确性

原文链接:http://www.wangxianfeng.name/2011/08/ensemble-method-to-improve-the-accuracy-of-the-classifier/传统的分类方法是在一个由各种可能的函数构成的空间中寻找一个最接近实际分类函数的分类器。这些单个的分类器模型主要有决策树、人工神经网络、朴素贝叶斯分类器等等。可以通过聚集多个分类器的预测

2016-10-28 12:17:01 17416

原创 感知器java实现简略版

/** * 感知器分类:随机梯度下降算法求解。 * 感知器是一个线性二分类器: y = (w)T·x + b 最优化可以求解w和b。 * * 损失函数:L(w,b) = 求和(I(yi != wT·xi + b) * yi(wT·xi + b)) * * 输入: double[m][n] data 每行表示一个样本,每行是一个n维的特征向量。总共有m个样本。 * i

2016-10-09 21:32:30 948

fastica 独立成分分析matlab代码与使用说明

共包括三个文件: FastICA_25: fastica的MATLAB代码; Matlab中FastICA工具箱的使用说明.pdf:对MATLAB代码的使用说明,来自百度文库。 readme: 我自己在实验中总结的MATLAB代码使用方法。

2016-05-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除