2017年01月_zc02051126

09月 06月 05月 03月 02月 01月

原创机器学习基础第七章推荐系统

7.1、推荐系统概述如何在学习爆炸的时代找到自己需要的信息？搜索引擎（Google，Bing，百度等等）成为大家快速找到目标信息的最好途径。在用户对自己需求相对明确的时候，用搜索引擎很方便的通过关键字搜索很快的找到自己需要的信息。但搜索引擎并不能完全满足用户对信息发现的需求，那是因为在很多情况下，用户其实并不明确自己的需要，或者他们的需求很难用简单的关键字来表述。又或者他们需要更加符合他们个人口味和

2017-01-27 13:29:12 1049

原创机器学习基础第六章模型选择

1 模型选择方法下图是不同阶多项式回归问题，从中可以看到不同的M取值所对应的不同效果，M=0和M=1时都是欠拟合，M=9多拟合，M=3时多项式回归模型刚好合适，在实际应用中不能将每个模型都画出来进行观察。在模型选择中如何才能得到一个不过拟合也不欠拟合的模型？将数据集分为：训练集，交叉验证集，测试集。对于每个可能的模型，用训练数据训练模型然后在训练好的模型上做交叉验证，在所有的模型中选出交叉验证结果最

2017-01-27 09:47:28 812

原创机器学习基础第五章降维算法

五降维算法1 主成分分析（PCA）1.1 主成分应用从第二章的图1.1.1中能看出来哪部电影的人气指数最高吗？当然是票房比较高或者检索次数比较高的电影人气指数要高。如何用主成分来分析人气指数哪？沿着数据跨度最大的方向，即方差最大的方向画出一条坐标轴，然后将原始的数据投影在新的坐标轴上，投影后值越大代表综合人气指数最高，见下图。下面会以一个例子演示如何计算主成分，及其相关应用。图1.1.1 各个

2017-01-27 09:32:25 1011

原创机器学习基础第四章聚类算法

聚类算法是无监督学习算法，对于没有打上标签的数据，可以采用聚类算法。下面介绍两种常用的算法KMeans和谱聚类。1 Kmeans假设有数据集合 {xi}\left\{ x_{i} \right\}，1≤i≤N1 \leq i \leq N ，xi∈Rnx_{i} \in \mathbb{R}^{n}，如果想把该数据集合分成k个类，应该如何划分？这就是聚类问题。例如有如下二维数据（以二维为例方便展示）

2017-01-26 20:57:06 1328

原创机器学习基础第三章分类算法

1 线性分类器-感知器1.1 感知器有如图1.1所示的两类数据希望找到，如果想把他们分开，最简单的方法就是用图中的绿线将它们分开。显然绿线的方程为t=ω0+ω1x+ω1y−−−−−（1.1−1）t = \omega_{0} + \omega_{1}x + \omega_{1}y-----（1.1-1）假设红色点为 {xr,yr}\left\{ x_{r},y_{r} \right\}，绿色点的集合为

2017-01-25 13:36:26 4045

原创机器学习基础第二章预测算法

1 一元线性回归1.1 为什么用回归图1.1.1 Google的票房与搜索量的关系图1.1显示的是Google发布的电影的搜索量与票房的关系。如何用历史的信息预测票房就是（线性）回归问题。1.2 一元线性回归模型1 数学描述图1.1.1中的横、纵轴分别用用{xi,yi}图1.1.1中的横、纵轴分别用用\left\{ x_{i},y_{i} \right\}表示，表示，1≤i≤N。假设图1.1中使

2017-01-24 18:03:55 14900 1

原创机器学习基础第一章机器学习概述

一机器学习概述1.1 统计学习1 学习方法监督学习，非监督学习，半监督学习2 统计学习三要素模型，策略，算法1.2 监督学习1 基本概念输入、输出空间，特征空间，假设空间2 监督学习过程 1.3 模型评估与选择1 训练误差与测试误差 2 过拟合与正则化 3 交叉验证4 评价指标准确率和召回率1.4 模型的泛化能力即预测模型对样本的预测能力

2017-01-24 16:47:49 839

原创 Nginx函数ngx_single_process_cycle学习笔记

ngx_cycle_t=ngx_cycle_s ngx_cycle_s的定义如下，下面介绍的函数中有一个重要的ngx_cycle_t类型的参数cycle，所一写介绍下它的类型结构。struct ngx_cycle_s {void ****conf_ctx;ngx_pool_t *pool;ngx_log_t

2017-01-19 22:54:01 1708

原创基于域的分解机(FFM)理论介绍及libFFM源码解析

符号说明：x表示样本特征数据x表示样本特征数据y表示样本目标数据y表示样本目标数据第i个训练样本为(xi,yi)，为了方便也可以用x=xi表示第i个样本第i个训练样本为\left( x_{i},y_{i} \right)，为了方便也可以用x =x_{i}表示第i个样本1 基于域的分解机模型（FFM）1.1 线性模型∅(w,x)=wTx=w0+∑j∈C1wjxj−−−−(1)\varnothi

2017-01-19 12:00:04 11617 8

原创对抗网络在文本生成图片中的应用

1 简介利用神经网络可以从文本生成图片，即将文本的语义转化为图片; 也可以从图片生成文本，即生成的文本描述图片中的内容，例如一幅图片中有一直小鸟落在枝头。最后由图片生产的文本就可以能可爱的绿色小鸟落于枝头。在计算广告中这种文本和图片之间互相生成的过程非常有用，如果可以在工业界有所突破，他们在广告创意的制作中将会发挥巨大作用，例如选定一个创意标题，立刻得到了创意图片，当制作完成了创意图片时也立刻得到了

2017-01-16 22:55:49 8710

原创 Nginx两种反向代理方式：fastcgi，upstreaming

1 简介Nginx反向代理可以通过两种方式实现，fastcgi和upstreaming2 fastcgi该部分以PHP为例介绍通过fastcgi实现反向代理。 fastcgi相关介绍见这里首先安装Nginx和PHP环境。建议使用https://lnmp.org/ 。一键安装，非常方便。安装完成后，找到配置文件/usr/local/nginx/conf/nginx.conf。在配置文件中找到in

2017-01-15 10:30:20 8166

原创 CTR模型中的频率矫正过程

1 简介在用不对称数据训练一个预测模型时，比如在训练广告的CTR模型时，训练数据就严重正负样本不对称，负样本可能是正样本的几百倍，对于这种问题，常用的做法是对负样本进行采样，将采样后的负样本和正样本一起作为训练数据。但是这样的训练数据训练出的模型预测概率会比实际的概念要打，以为对负样本采样导致训练数据的分布和原始数据的分布不一致了。所以在预测时要对模型预测出的概念进行矫正。下面介绍采样前后的概念关系

2017-01-12 16:30:48 5058 3