2017年12月_mishidemudong

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载机器学习、图像相关知识图谱

2017-12-27 13:25:03 837

转载多分类问题multicalss classification

多分类问题：有N个类别C1,C2,...,Cn,多分类学习的基本思路是“拆解法”，即将多分类任务拆分为若干个而分类任务求解，最经典的拆分策略是：“一对一”，“一对多”，“多对多”(1)一对一给定数据集D={(x1,y1),(x2,y2),...,(xn,yn)},yi€{c1,c2,...,cN},一对一将这N个类别两两配对，从而产生N(N-1)/2个二分类任务，在测试阶段新样本将

2017-12-27 11:37:53 3590

转载从随机过程到马尔科夫链蒙特卡洛方法

1. Introduction第一次接触到 Markov Chain Monte Carlo (MCMC) 是在 theano 的 deep learning tutorial 里面讲解到的 RBM 用到了 Gibbs sampling，当时因为要赶着做项目，虽然一头雾水，但是也没没有时间仔细看。趁目前比较清闲，把 machine learning 里面的 sampling methods

2017-12-27 11:08:56 527

转载马尔科夫蒙特卡洛算法(MCMC)

1.名词解释 MCMC方法就是*构造合适的马尔科夫链进行抽样而使用蒙特卡洛方法进行积分计算,既然马尔科夫链可以收敛到平稳分布。我们可以建立一个以π为平稳分布的马尔科夫链，对这个链运行足够长时间之后，可以达到平稳状态。此时马尔科夫链的值就相当于在分布π(x)中抽取样本。利用马尔科夫链进行随机模拟的方法就是MCMC。第一个MC: Monte Carlo(蒙特卡洛)。这个简单来说是让我们使用

2017-12-27 11:05:57 8680

转载 keras 与tensorflow 混合使用

keras 与tensorflow 混合使用keras 与tensorflow 混合使用tensorfow Fly keras最近tensorflow更新了新版本，到1.4了。做了许多更新，当然重要的是增加了tf.keras. 毕竟keras对于模型搭建的方便大家都是有目共睹的。喜欢keras风格的模型搭建而不喜欢tens

2017-12-25 17:22:39 11761 1

转载规则引擎Pyke与PyClips对比研究报告

1．背景综述规则引擎主要实现的功能是存储、分类和管理规则，执行规则、推断其它事实的应用程序。其中的规则主要是指企业或商务业务逻辑、法律条款等。在规则引擎发展的过程中，Rete算法和Prolog语言是两个重要的理论分支，多数规则引擎都是基于以上二者扩展而来的。在工业活动铸造中，发展时间较长、应用广泛的两个体系是Clips体系和Prolog体系。Clips是美国航空航天局N

2017-12-25 09:59:11 4344

转载增强学习系列之（二）：实现一个简单的增强学习的例子

我们现在来用之前提到的Q-Learning算法，实现一个有趣的东西1. 算法效果我们想要实现的，就是一个这样的小车。小车有两个动作，在任何一个时刻可以向左运动，也可以向右运动，我们的目标是上小车走上山顶。一开始小车只能随机地左右运动，在训练了一段时间之后就可以很好地完成我们设定的目标了2. Deep Q Learning 算法简单介绍就像我们在前一章里面简单介绍的，我们使用

2017-12-22 09:39:25 1332

转载 tensorflow添加自定义的auc计算operator

tensorflow添加自定义的auc计算operatortensorflow可以很方便的添加用户自定义的operator(如果不添加也可以采用sklearn的auc计算函数或者自己写一个但是会在python执行，这里希望在graph中也就是c++端执行这个计算)这里根据工作需要添加一个计算auc的operator，只给出最简单实现，后续高级功能还是参考官方wikihttps://ww

2017-12-20 17:18:52 2360

转载手把手教你用GAN实现半监督学习

引言本文主要介绍如何在tensorflow上仅使用200个带标签的mnist图像，实现在一万张测试图片上99%的测试精度，原理在于使用GAN做半监督学习。前文主要介绍一些原理部分，后文详细介绍代码及其实现原理。前文介绍比较简单，有基础的同学请掠过直接看第二部分，文章末尾给出了代码GitHub链接。对GAN不了解的同学可以查看微信公众号：机器学习算法全栈工程师的GAN入门文章。1.监督，无

2017-12-18 18:24:39 2980 1

转载 GAN用于半监督学习

概述GAN的发明者Ian Goodfellow2016年在Open AI任职期间发表了这篇论文，其中提到了GAN用于半监督学习(semi supervised)的方法。称为SSGAN。作者给出了Theano+Lasagne实现。本文结合源码对这种方法的推导和实现进行讲解。1半监督学习考虑一个分类问题。如果训练集中大部分样本没有标记类别，只有少部分样本有标记。

2017-12-18 17:42:17 3114

转载 TensorflowOnSpark：1)Standalone集群初体验

1.实验环境Centos7+Python2.7+Java8+Spark1.6+Hadoop2.7+Tensorflow0.12.1Spark和Hadoop的集群搭建网上教程比较多，这里以最简洁的方法配置集群，针对tensorflow添加的额外配置，我会进行强调(其实地上本没有坑，跌的人多了，也便成了Keng)1>系统环境环境变量export JAVA_HOME=/hadoo

2017-12-14 13:40:20 497

转载＃＃＃＃＃好好好＃＃＃＃＃特征离散化方法综述

致谢老婆大人为本期博客创作配图，你的支持是我坚持下去的动力特征离散化系列一方法综述数值离散化在数据挖掘和发现知识(data mining and knowledge discovery)方面扮演者重要的角色。许多研究表明归纳任务(induction tasks)能从离散化(discretization)中获益：有离散值的规则通常是更简短，更容易理解，并且离散化能改善预测精度(predict

2017-12-14 10:23:33 1346

转载互联网广告综述之点击率特征工程

互联网广告综述之点击率特征工程一．互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统，可以看到，其中的logistic regression模型是比较简单而且实用的，其训练方法虽然有多种，但目标是一致的，训练结果对效果的影响是比较大，但是训练方法本身，对效果的影响却不是决定性的，因为训练的是每个特征的权重，权重细微的差别不会引起ctr的巨大

2017-12-14 10:05:19 295

转载 LibRec 每周算法：DeepFM

本周介绍一篇来自与哈工大与华为诺亚方舟实验室的论文。本文提出的DeepFM模型有效的结合了神经网络与因子分解机在特征学习中的优点。DeepFM可以同时提取到低阶组合特征与高阶组合特征，并除了得到原始特征之外无需其他特征工程。实验表明DeepFM比其他用于CTR的模型更加有效和高效。Guo et al., DeepFM: A Factorization-Machine based Neur

2017-12-13 11:13:30 4425

转载 ######好好好好好######常见计算广告点击率预估算法总结

前言谈到CTR，都多多少少有些了解，尤其在互联网广告这块，简而言之，就是给某个网络服务使用者推送一个广告，该广告被点击的概率，这个问题难度简单到街边算命随口告诉你今天适不适合娶亲、适不适合搬迁一样，也可以复杂到拿到各种诸如龟壳、铜钱等等家伙事，在沐浴更衣、净手煴香后，最后一通预测，发现完全扯淡，被人暴打一顿，更有甚者，在以前关系国家危亡、异或争国本这种情况时，也通常会算上一卦，国家的兴衰、

2017-12-13 11:05:44 413

转载用户在线广告点击行为预测的深度学习模型

本次分享主要讲的是深度学习在Multi-field Categorical 这类数据集上的应用，这种类型的数据主要呈现以下特征：有多个域，每个域上的数据以ID格式呈现。本课题就是在信息检索这一大类下的应用，它的应用主要体现在：网络搜索、推荐系统、广告展示这些领域。深度学习对连续数据和序列数据（比如：图片像素、语音、自然语言等）有比较好的效果且目前已经有了比较成熟的应用，如：图像识别、语音识别等。

2017-12-13 11:02:37 1004

转载 ####好好好#######FM实现(tensorflow版)

今天在看了一下FM算法，就试着用tensorflow实现了一下，数据集用的是sklearn中的iris，我将target=2的删除掉了，保留了target=0 or 1的做一个二分类的测试．首先来扯一下FM算法的思路，我感觉FM和MF是完全相反的思路，MF矩阵分解的大体思路是直接用两个矩阵相乘去拟合一个用户－商品的矩阵，然后将这两个矩阵作为用户和商品的特征矩阵，想要预测用户是否喜欢某个商品

2017-12-13 10:56:06 6481 9

转载基于LR的新闻多分类（基于spark2.1.0, 附完整代码）

原创文章！转载请保留原始文章链接，谢谢！环境：Scala2.11.8 + Java1.8.0_112Spark2.1.0 + HanLP1.3.2 完整项目代码见我的GitHub：https://github.com/yhao2014/ckoocML（因为HanLP分词模型太大，未上传至项目中，需要的请从HanLP发布页下载，然后解压后将

2017-12-13 10:38:14 1127

转载 DeepFM：深度学习算法助力华为应用市场APP推荐

今年8月下旬，在澳大利亚墨尔本召开的IJCAI2017会议上，来自华为伏羲推荐团队的专家发表了他们在深度学习推荐算法方面的最新成果。伏羲推荐引擎是华为应用市场联合华为诺亚方舟实验室开发的一款推荐系统。针对华为应用市场的业务特点和数据特征，伏羲推荐算法团队提出的端到端的深度学习推荐模型DeepFM，助力华为应用市场更加精准、个性化的推荐体验。华为诺亚方舟实验室算法专家在IJCAI2017

2017-12-13 10:32:35 3949

转载关于点击率模型，你知道这三点就够了

说到计算广告，或者个性化推荐，甚至一般的互联网产品，无论是运营、产品还是技术，最为关注的指标，就是点击率。业界也经常流传着一些故事，某某科学家通过建立更好的点击率预测模型，为公司带来了上亿的增量收入。点击率这样一个简单直接的统计量，为什么要用复杂的数学模型来刻画呢？这样的模型又是如何建立与评估的呢？我们这一期就来谈谈这个问题。一、为什么要建立一个点击率模型？无论是人工运营还是机器决策，我们

2017-12-13 10:25:38 1451

转载 #####好######简单易学的机器学习算法——因子分解机(Factorization Machine)

一、因子分解机FM的模型因子分解机(Factorization Machine, FM)是由Steffen Rendle提出的一种基于矩阵分解的机器学习算法。1、因子分解机FM的优势对于因子分解机FM来说，最大的特点是对于稀疏的数据具有很好的学习能力。现实中稀疏的数据很多，例如作者所举的推荐系统的例子便是一个很直观的具有稀疏特点的例子。

2017-12-13 09:40:51 1101

转载风控模型评估方法以及大数据风控模型概念

更新一下有效性指标中的区分能力指标： KS(Kolmogorov-Smirnov)：KS用于模型风险区分能力进行评估，指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大，KS指标越大，那么模型的风险区分能力越强。KS的计算步骤如下：1. 计算每个评分区间的好坏账户数。2. 计算每个评分区间的累计好账户数占总好账户数比率(good%)和累计坏账户数占总坏账户数比率(bad%

2017-12-12 16:07:39 27643

转载受限玻尔兹曼机（RBM）学习笔记（一）预备知识

目录链接（一）预备知识（二）网络结构（三）能量函数和概率分布（四）对数似然函数（五）梯度计算公式（六）对比散度算法（七）RBM 训练算法（八）RBM 的评估作者: peghoty 出处: http://blog.csdn.net/itplus/article/details/1916

2017-12-12 15:05:06 240

转载受限玻尔兹曼机（RBM, Restricted Boltzmann machines）和深度信念网络（DBN, Deep Belief Networks）

受限玻尔兹曼机对于当今的非监督学习有一定的启发意义。深度信念网络(DBN, Deep Belief Networks)于2006年由Geoffery Hinton提出。

2017-12-12 14:02:49 1171

转载 ####好好好￥#####spark Streaming 技术内幕 : 从DSteam到RDD全过程解析

一、DStream和RDD的关系 DSream 代表了一系列连续的RDD，DStream中每个RDD包含特定时间间隔的数据，如下图所示：从上图可以看出，一个DStream 对应了时间维度上的多个RDD。 DStream 作为Spark Stream的一个基本抽象，提供了高层的API来进行Spark Streaming 程序开发

2017-12-11 16:21:06 368

转载 scipy.spatial 距离计算模块

在scipy.spatial中最重要的模块应该就是距离计算模块distance了。from scipy import spatial距离计算矩阵距离计算函数矩阵参数每行代表一个观测值，计算结果就是每行之间的metric距离。Distance matrix computation from a collection of raw observation vecto

2017-12-11 15:19:06 7017

转载 #####带时间衰减因子#####应用实战: 如何利用Spark集群计算物品相似度

本文是Spark调研笔记的最后一篇，以代码实例说明如何借助Spark平台高效地实现推荐系统CF算法中的物品相似度计算。在推荐系统中，最经典的推荐算法无疑是协同过滤（Collaborative Filtering, CF），而item-cf又是CF算法中一个实现简单且效果不错的算法。在item-cf算法中，最关键的步骤是计算物品之间的相似度。本文以代码实例来说明如何利用Spark平台

2017-12-11 11:15:27 2494

转载 SparkMLlib---基于余弦相似度的用户相似计算

package mllibimport org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkContext, SparkConf}import scala.collection.mutable.Map/** * Created by 汪本成 on 2016/8/4. */object UserSimilar

2017-12-11 11:12:17 1848

转载基于spark机器学习--物品推荐物品推荐

基于spark机器学习---------物品推荐物品推荐[html] view plain copyimport org.apache.spark.SparkContext import org.apache.spark.mllib.recommendation.{ALS, Rating} import org.jblas.D

2017-12-11 10:06:47 896

转载 SparkStreaming计算WordCount简单示例

在之前的Spark程序中,我们是对RDD进行各种操作,SparkStreaming我们对DStream操作,其中DStream是discretized stream(离散流)的简写,官网对他的解释是:DStreams can be created either from input data streams from sources such as Kafka, Flume, and Ki

2017-12-11 09:41:31 312

转载 Mahout推荐算法API详解

Mahout推荐算法API详解Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Cr

2017-12-08 18:02:55 349

转载 Mysql 一条SQL语句实现批量更新数据，update结合case、when和then的使用案例

如何用一条sql语句实现批量更新？mysql并没有提供直接的方法来实现批量更新，但是可以用点小技巧来实现。复制代码代码如下: UPDATE mytable SET myfield = CASE id WHEN 1 THEN 'value' WHEN 2 THEN 'value' WHEN 3 THEN 'value'END WHER

2017-12-08 13:58:12 4139

转载 ######好好好#######DStream 生成 RDD 实例详解

DStream 生成 RDD 实例详解[酷玩 Spark] Spark Streaming 源码解析系列，返回目录请猛戳这里「腾讯·广点通」技术团队荣誉出品本系列内容适用范围：* 2016.12.28 update, Spark 2.1 全系列 √ (2.1.0)* 2016.11.14 update, Spark 2.0 全系列 √ (2.0.0, 2.0.1, 2

2017-12-07 18:06:28 316

转载 ######好#######输入DStreams和receivers

输入DStreams和receivers输入DStreams表示从数据源获取输入数据流的DStreams。在快速例子中，lines表示输入DStream，它代表从netcat服务器获取的数据流。每一个输入流DStream和一个Receiver对象相关联，这个Receiver从源中获取数据，并将数据存入内存中用于处理。输入DStreams表示从数据源获取的原始数据流。Spark Stream

2017-12-07 18:01:24 239

转载 ####好#####DStreams上的输出操作

DStreams上的输出操作输出操作允许DStream的操作推到如数据库、文件系统等外部系统中。因为输出操作实际上是允许外部系统消费转换后的数据，它们触发的实际操作是DStream转换。目前，定义了下面几种输出操作：Output OperationMeaningprint()在DStream的每个批数据中打印前10条元素，这个操作在开发和调试中都非常

2017-12-07 17:55:43 483

转载 ####好#####DStream中的转换（transformation）

DStream中的转换（transformation）和RDD类似，transformation允许从输入DStream来的数据被修改。DStreams支持很多在RDD中可用的transformation算子。一些常用的算子如下所示：TransformationMeaningmap(func)利用函数func处理原DStream的每个元素，返回一个新

2017-12-07 17:51:30 1037

转载 #####好####Kafka基本操作命令

[Kafka] - Kafka基本操作命令Kafka支持的基本命令位于${KAFKA_HOME}/bin文件夹中，主要是kafka-topics.sh命令；Kafka命令参考页面: kafka-0.8.x-帮助文档 -1. 查看帮助信息bin/kafka-topics.sh --help -2. 创建Topic

2017-12-07 17:11:34 278

转载 Kafka 如何读取offset topic内容 (__consumer_offsets)

众所周知，由于Zookeeper并不适合大批量的频繁写入操作，新版Kafka已推荐将consumer的位移信息保存在Kafka内部的topic中，即__consumer_offsets topic，并且默认提供了kafka_consumer_groups.sh脚本供用户查看consumer信息。　　不过依然有很多用户希望了解__consumer_offsets topic内部到底保存了什么

2017-12-07 16:54:32 445

转载整合Kafka到Spark Streaming——代码示例和挑战

作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版

2017-12-07 10:37:09 550

转载 #####好#########基于Python的Spark Streaming+Kafka编程实践

说明Spark Streaming的原理说明的文章很多，这里不做介绍。本文主要介绍使用Kafka作为数据源的编程模型,编码实践,以及一些优化说明spark streaming:http://spark.apache.org/docs/1.6.0/streaming-programming-guide.htmlstreaming-kafka-integration:htt

2017-12-07 10:09:44 470