- 博客(14)
- 资源 (11)
- 收藏
- 关注
原创 机器学习基础 第七章 推荐系统
7.1、推荐系统概述如何在学习爆炸的时代找到自己需要的信息?搜索引擎(Google,Bing,百度等等)成为大家快速找到目标信息的最好途径。在用户对自己需求相对明确的时候,用搜索引擎很方便的通过关键字搜索很快的找到自己需要的信息。但搜索引擎并不能完全满足用户对信息发现的需求,那是因为在很多情况下,用户其实并不明确自己的需要,或者他们的需求很难用简单的关键字来表述。又或者他们需要更加符合他们个人口味和
2017-01-27 13:29:12 1049
原创 机器学习基础 第六章 模型选择
1 模型选择方法下图是不同阶多项式回归问题,从中可以看到不同的M取值所对应的不同效果,M=0和M=1时都是欠拟合,M=9多拟合,M=3时多项式回归模型刚好合适,在实际应用中不能将每个模型都画出来进行观察。在模型选择中如何才能得到一个不过拟合也不欠拟合的模型?将数据集分为:训练集,交叉验证集,测试集。对于每个可能的模型,用训练数据训练模型然后在训练好的模型上做交叉验证,在所有的模型中选出交叉验证结果最
2017-01-27 09:47:28 812
原创 机器学习基础 第五章 降维算法
五 降维算法1 主成分分析(PCA)1.1 主成分应用从第二章的图1.1.1中能看出来哪部电影的人气指数最高吗?当然是票房比较高或者检索次数比较高的电影人气指数要高。如何用主成分来分析人气指数哪?沿着数据跨度最大的方向,即方差最大的方向画出一条坐标轴,然后将原始的数据投影在新的坐标轴上,投影后值越大代表综合人气指数最高,见下图。下面会以一个例子演示如何计算主成分,及其相关应用。 图1.1.1 各个
2017-01-27 09:32:25 1011
原创 机器学习基础 第四章 聚类算法
聚类算法是无监督学习算法,对于没有打上标签的数据,可以采用聚类算法。下面介绍两种常用的算法KMeans和谱聚类。1 Kmeans假设有数据集合 {xi}\left\{ x_{i} \right\},1≤i≤N1 \leq i \leq N ,xi∈Rnx_{i} \in \mathbb{R}^{n},如果想把该数据集合分成k个类,应该如何划分?这就是聚类问题。例如有如下二维数据(以二维为例方便展示)
2017-01-26 20:57:06 1328
原创 机器学习基础 第三章 分类算法
1 线性分类器-感知器1.1 感知器有如图1.1所示的两类数据希望找到,如果想把他们分开,最简单的方法就是用图中的绿线将它们分开。显然绿线的方程为t=ω0+ω1x+ω1y−−−−−(1.1−1)t = \omega_{0} + \omega_{1}x + \omega_{1}y-----(1.1-1)假设红色点为 {xr,yr}\left\{ x_{r},y_{r} \right\},绿色点的集合为
2017-01-25 13:36:26 4045
原创 机器学习基础 第二章 预测算法
1 一元线性回归1.1 为什么用回归 图1.1.1 Google的票房与搜索量的关系图1.1显示的是Google发布的电影的搜索量与票房的关系。如何用历史的信息预测票房就是(线性)回归问题。1.2 一元线性回归模型1 数学描述图1.1.1中的横、纵轴分别用用{xi,yi}图1.1.1中的横、纵轴分别用用\left\{ x_{i},y_{i} \right\}表示,表示,1≤i≤N。假设图1.1中使
2017-01-24 18:03:55 14900 1
原创 机器学习基础 第一章 机器学习概述
一 机器学习概述1.1 统计学习1 学习方法监督学习,非监督学习,半监督学习2 统计学习三要素模型,策略,算法1.2 监督学习1 基本概念输入、输出空间,特征空间,假设空间2 监督学习过程 1.3 模型评估与选择1 训练误差与测试误差 2 过拟合与正则化 3 交叉验证4 评价指标准确率和召回率1.4 模型的泛化能力即预测模型对样本的预测能力
2017-01-24 16:47:49 839
原创 Nginx函数ngx_single_process_cycle学习笔记
ngx_cycle_t=ngx_cycle_s ngx_cycle_s的定义如下,下面介绍的函数中有一个重要的ngx_cycle_t类型的参数cycle,所一写介绍下它的类型结构。struct ngx_cycle_s {void ****conf_ctx;ngx_pool_t *pool;ngx_log_t
2017-01-19 22:54:01 1708
原创 基于域的分解机(FFM)理论介绍及libFFM源码解析
符号说明:x表示样本特征数据x表示样本特征数据y表示样本目标数据y表示样本目标数据第i个训练样本为(xi,yi),为了方便也可以用x=xi表示第i个样本第i个训练样本为\left( x_{i},y_{i} \right),为了方便也可以用x =x_{i}表示第i个样本1 基于域的分解机模型(FFM)1.1 线性模型∅(w,x)=wTx=w0+∑j∈C1wjxj−−−−(1)\varnothi
2017-01-19 12:00:04 11617 8
原创 对抗网络在文本生成图片中的应用
1 简介利用神经网络可以从文本生成图片,即将文本的语义转化为图片; 也可以从图片生成文本,即生成的文本描述图片中的内容,例如一幅图片中有一直小鸟落在枝头。最后由图片生产的文本就可以能可爱的绿色小鸟落于枝头。在计算广告中这种文本和图片之间互相生成的过程非常有用,如果可以在工业界有所突破,他们在广告创意的制作中将会发挥巨大作用,例如选定一个创意标题,立刻得到了创意图片,当制作完成了创意图片时也立刻得到了
2017-01-16 22:55:49 8710
原创 Nginx两种反向代理方式:fastcgi,upstreaming
1 简介Nginx反向代理可以通过两种方式实现,fastcgi和upstreaming2 fastcgi该部分以PHP为例介绍通过fastcgi实现反向代理。 fastcgi相关介绍见这里 首先安装Nginx和PHP环境。建议使用https://lnmp.org/ 。一键安装,非常方便。安装完成后,找到配置文件/usr/local/nginx/conf/nginx.conf。在配置文件中找到in
2017-01-15 10:30:20 8166
原创 CTR模型中的频率矫正过程
1 简介在用不对称数据训练一个预测模型时,比如在训练广告的CTR模型时,训练数据就严重正负样本不对称,负样本可能是正样本的几百倍,对于这种问题,常用的做法是对负样本进行采样,将采样后的负样本和正样本一起作为训练数据。但是这样的训练数据训练出的模型预测概率会比实际的概念要打,以为对负样本采样导致训练数据的分布和原始数据的分布不一致了。所以在预测时要对模型预测出的概念进行矫正。下面介绍采样前后的概念关系
2017-01-12 16:30:48 5058 3
转载 What are the lesser known but useful data structures?
http://stackoverflow.com/questions/500607/what-are-the-lesser-known-but-useful-data-structures
2017-01-09 10:35:33 426
Ensemble Methods Foundations and Algorithms读书笔记
2015-04-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人