机器学习
文章平均质量分 75
永永夜
good good study, day day up!
展开
-
自定义auc函数+分布式计算方式分析
自定义auc函数sklearn 中自带的auc函数AUC 的计算方式如下:AUC=∑iP∗NI(scorepos>scoreneg)P∗NAUC=\frac{\sum_i^{P*N} I(score_{pos} > score_{neg})}{P*N}AUC=P∗N∑iP∗NI(scorepos>scoreneg)其中 P 表示正样本的数量,N表示负样本的数量。分母就是所有(正样本,负样本)对,每个样本对对应的分数是(scoreposscore_{pos}scorepos原创 2020-08-05 16:50:23 · 1602 阅读 · 0 评论 -
TensorFlow入门(三)多层 CNNs 实现 mnist分类
深入MNISTrefer: http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/mnist_pros.html @author: huangyongye @date: 2017-02-24之前在keras中用同样的网络和同样的数据集来做这个例子的时候。keras占用了 5647M 的显存(训练过程中设了 validation_s原创 2017-02-25 17:56:50 · 14040 阅读 · 11 评论 -
python 下的 word2vec 学习笔记
1.ubuntu下安装gensimrefer to: ubuntu 14.04 安装gensim为了保证安装成功,首先升级一下easy_install工具。sudo easy_install -U setuptools之后使用easy_install进行安装,使用apt-get安装会遇到编码出错,不知为什么,使用easy_install安装成功就行了。sudo easy_install --upgr原创 2016-10-29 22:43:48 · 42526 阅读 · 1 评论 -
2017知乎看山杯总结(多标签文本分类)
关于比赛详情,请戳:2017 知乎看山杯机器学习挑战赛代码:https://github.com/yongyehuang/zhihu-text-classification 基于:python 2.7, TensorFlow 1.2.1任务描述:参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型。标注数据中包含 300 万个问题,每个问题有 1 个或多个标原创 2017-08-31 21:59:53 · 24505 阅读 · 10 评论 -
我的Tensorflow学习之路
最近两年深度学习真的是火的不要不要的,关于深度学习,每个人都有自己的看法。有人说就是炼丹,得个准确率召回率什么的,拿到实际中,问问为什么,都答不上来。各种连代码都没写过的人,也纷纷表示这东西就是小孩堆积木,然后整个大功耗的服务器跑上几天,调调参数。然后每个实验室招生,都说自己是做什么深度学习,机器 学习,大数据分析的,以此来吸引学生。可是可是,他们实验室很可能连一块 GPU 都没有。小时候,我原创 2017-09-27 16:36:58 · 24163 阅读 · 13 评论 -
TensorFlow入门(五)多层 LSTM 通俗易懂版
欢迎转载,但请务必注明原文出处及作者信息。@author: huangyongye @creat_date: 2017-03-09 前言: 根据我本人学习 TensorFlow 实现 LSTM 的经历,发现网上虽然也有不少教程,其中很多都是根据官方给出的例子,用多层 LSTM 来实现 PTBModel 语言模型,比如: tensorflow笔记:多层LSTM代码分析 但是感觉这些例子还原创 2017-03-10 12:28:59 · 138583 阅读 · 94 评论 -
(译)理解 LSTM 网络 (Understanding LSTM Networks by colah)
@翻译:huangyongye原文链接: Understanding LSTM Networks前言:其实之前就已经用过 LSTM 了,是在深度学习框架 keras 上直接用的,但是到现在对LSTM详细的网络结构还是不了解,心里牵挂着难受呀!今天看了 tensorflow 文档上面推荐的这篇博文,看完这后,焕然大悟,对 LSTM 的结构理解基本上没有太大问题。此博文写得真真真好!!!为了帮翻译 2017-02-28 16:38:14 · 64742 阅读 · 16 评论 -
二分类结果分析工具函数
下面代码是我总结的针对二分类问题的预测结果分析工具函数。 代码中有详细的文档说明。所以可以直接看代码。# -*- coding:utf-8 -*-from __future__ import print_functionfrom __future__ import divisionimport numpy as npimport pandas as pdimport matplotlib.p原创 2017-12-28 12:03:58 · 2337 阅读 · 0 评论 -
LR(Logistic Regression) & XGBOOST 学习笔记
LR(Logistic Regression) & XGBOOST 在 CRT中的应用此文将持续更新,欢迎指导交流~立志要成为一位优秀炼丹师的我搞起 CRT 来突然压力山大。数据是最最主要的原因,而且毕竟调得少,慢慢攒点经验吧。在 CRT 中,最大的两个问题就是: - 数据不均衡。在投放的大量广告中真正转化的样本数量很少。 - 数据稀疏。每个样本的特征信息都不太全。LR 和 X原创 2017-12-28 17:21:49 · 8227 阅读 · 2 评论 -
XGBOOST + LR 模型融合 python 代码
XGBOOST + LR (XGBOOST grid search)先留个广告,最近做一个数据挖掘的比赛,主要用的就是 xgboost,等比赛完后年前好好整理代码开源,到时候代码会比下面整份完整。XGBOOST + LR 是 CTR 常用的一种方式。下面是实现 XGBOOST + LR 的代码,具体的原理不做细说。有了下面的代码框架,你可以对 xgboost 进行参数优化搜索,同时可以利用原创 2018-01-08 18:16:11 · 14375 阅读 · 6 评论 -
python+HMM之维特比解码
HMM 回顾《统计学习方法》 p.174隐马尔科夫模型(HMM)有三个基本的问题(1)概率计算问题。给定模型 λ=(A,B,Pi)\lambda = (A, B, Pi) 和观测序列 O(o1,o2,...,oT)O(o_1, o_2, ..., o_T),计算在模型 λ\lambda 下观测序列 OO 的概率 P(O|λ)P(O|\lambda)(2)学习问题。已知观测序列 O(o1,o2,.原创 2017-06-28 13:49:13 · 4775 阅读 · 0 评论 -
TensorFlow入门(七) 充分理解 name / variable_scope
欢迎转载,但请务必注明原文出处及作者信息。@author: huangyongye @creat_date: 2017-03-08 前言: 本例子主要介绍 name_scope 和 variable_scope 的正确使用方式,学习并理解本例之后,你就能够真正读懂 TensorFlow 的很多代码并能够清晰地理解模型结构了。之前写过一个例子了: TensorFlow入门(四) name / v原创 2017-04-26 17:27:22 · 50970 阅读 · 8 评论 -
采用集成学习算法提高分类器的准确性
原文链接:http://www.wangxianfeng.name/2011/08/ensemble-method-to-improve-the-accuracy-of-the-classifier/传统的分类方法是在一个由各种可能的函数构成的空间中寻找一个最接近实际分类函数的分类器。这些单个的分类器模型主要有决策树、人工神经网络、朴素贝叶斯分类器等等。可以通过聚集多个分类器的预测转载 2016-10-28 12:17:01 · 21417 阅读 · 0 评论 -
huffman树在word2vec中的应用原理
最近学习word2vec,关于word2vec在python中的使用在《 python 下的 word2vec 学习笔记》中进行了介绍。下面是看的一篇主要介绍huffman树在word2vec中的应用原理解释,感觉写得非常棒,所以转发一下!原文链接:http://xiaoquanzi.net/?p=156 2013年末,Google发布的word2vec引起了一帮人的热捧,转载 2016-11-14 14:16:48 · 3279 阅读 · 0 评论 -
PCA的Python实现
PCA的Python实现pca讲解:http://www.cnblogs.com/jerrylead/archive/2011/04/18/2020209.htmlpython实现:http://blog.csdn.net/u012162613/article/details/42177327 """总的代码.Func: 对原始的特征矩阵进行降维, lowDataMat为降维之后返回新的特原创 2016-11-16 17:04:49 · 3746 阅读 · 1 评论 -
为什么要用稀疏自编码而不直接设更少的隐层节点
刚学自编码,以下是本人关于题目问题的一点思考。自编码器是一种非常简单的BP神经网络,是一种无监督学习算法。使用一个三层(只有一个隐含层)的自编码网络,然后设置隐含节点的数量少于输入层节点,就能够轻松地实现特征降维。如图:refer to: Deep Learning(深度学习)学习笔记整理系列之(四) 如果隐藏节点比可视节点(输入、输出)少的话,由于被迫的降维,自编码器会自动习得训练样本的特征原创 2016-12-23 21:42:26 · 3688 阅读 · 0 评论 -
seq2seq学习笔记
@author: huangyongye1. RNN基础对于RNN,我看到讲得最通俗易懂的应该是Andrej发的博客: The Unreasonable Effectiveness of Recurrent Neural Networks这里有它的中文翻译版本: 递归神经网络不可思议的有效性如果想了解 LSTM 的原理,可以参考这篇文章:(译)理解 LSTM 网络 (Understanding原创 2016-12-20 11:41:15 · 77895 阅读 · 20 评论 -
(译)神经网络基础(2):Softmax 分类函数
Softmax 分类函数本例子包括以下内容: * softmax 函数 * 交叉熵(Cross-entropy) 损失函数在上一个例子中,我们介绍了如何利用 logistic 函数来处理二分类问题。对于多分类问题,在处理多项式 logistic 回归(multinomial logistic regression)中,用到 logistic 函数的一种扩展形式,叫做 softmax 函数。下面的翻译 2017-05-05 16:54:58 · 4713 阅读 · 0 评论 -
(译)神经网络基础(1):Logistic 回归
点击阅读原文Logistic 回归本例子包括以下内容: * logistic sigmoid 函数 * 交叉熵(Cross-entropy)损失函数在分类问题中,我们希望神经网络最后输出每个类别的概率分布 tt 。对于二分类问题, t=1t=1 或者 t=0t=0,我们可以使用 logistic 回归 中的 logistic sigmoid 函数。下面的内容将会介绍 logistic sigm翻译 2017-05-04 19:21:49 · 2581 阅读 · 0 评论 -
TensorFlow入门(二)简单前馈网络实现 mnist 分类
两层FC层做分类:MNISTrefer: http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/mnist_beginners.html @author: huangyongye @date: 2017-02-24在本教程中,我们来实现一个非常简单的两层全连接层来完成MNIST数据的分类问题。 输入[-1,28*28], FC1原创 2017-02-25 16:40:15 · 7600 阅读 · 4 评论 -
TensorFlow入门(一)基本用法
TensorFlow入门(一)基本用法refer to: http://wiki.jikexueyuan.com/project/tensorflow-zh/get_started/basic_usage.html @author: huangyongye @date: 2017-02-25本例子主要是按照 tensorflow的中文文档来学习 tensorflow 的基本用法。按照文档说明,主原创 2017-02-25 16:37:06 · 46309 阅读 · 9 评论 -
TensorFlow入门(四) name / variable_scope 的使用
name/variable_scope 的作用欢迎转载,但请务必注明原文出处及作者信息。@author: huangyongye @creat_date: 2017-03-08 refer to: Sharing Variables name / variable_scope 详细理解请看: TensorFlow入门(七) 充分理解 name / variable_scope* 起因:在运行原创 2017-03-08 18:08:55 · 24928 阅读 · 1 评论 -
感知器java实现简略版
/** * 感知器分类:随机梯度下降算法求解。 * 感知器是一个线性二分类器: y = (w)T·x + b 最优化可以求解w和b。 * * 损失函数:L(w,b) = 求和(I(yi != wT·xi + b) * yi(wT·xi + b)) * * 输入: double[m][n] data 每行表示一个样本,每行是一个n维的特征向量。总共有m个样本。 * i原创 2016-10-09 21:32:30 · 1188 阅读 · 0 评论