TensorFlow实现案例汇集:代码+笔记

这是使用 TensorFlow 实现流行的机器学习算法的教程汇集。本汇集的目标是让读者可以轻松通过案例深入 TensorFlow。 这些案例适合那些想要清晰简明的 TensorFlow 实现案例的初学者。本教程还包含了笔记和带有注解的代码。 项目地址:https://github.com/...

2018-08-29 13:41:05

阅读数 520

评论数 0

RNN - LSTM 梳理

RNN循环神经网络,在“时间序列”,“可变长序列到序列” 或“在上下文模型”中有着非常广泛的应用。现在论文中说到RNN,基本上说的就是LSTM,同时也有GRU用了比LSTM更少的gate和参数,可以达到类似的效果。 本文主要是介绍RNN,LSTM的原理,及举一个程序的例子来说明如何用TF实现LS...

2018-08-16 12:43:17

阅读数 1365

评论数 1

《Spark 官方文档》机器学习库指南

MLlib是Spark的机器学习库(MLlib)。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。 MLllib目前分为两个代码包: spark.mllib包含基...

2018-08-15 11:22:13

阅读数 327

评论数 0

机器学习、tensorflow 常用优化方法原理

在ML/DL中,有许多优化方法可以选择,只有清楚了它们的原理才能更好地选择。 1、SGD 随机梯度下降是最经典的方法,其思想如下图所示: 首先求出m个样本的Loss的和,求这个和对于神经网络参数theta的梯度,并将该梯度除以样本数m,得到平均梯度。然后,利用反向梯度来更新参数theta...

2018-08-09 15:36:53

阅读数 1215

评论数 0

用户画像原理、技术选型及架构实现

这篇文章在宏观上很好地描述了用户画像的主要内容。(文章内的图片来源于不同帖子,侵删) 一、 什么是用户画像         用户画像是指根据用户的属性、偏好、生活习惯、行为等信息,抽象出来的标签化用户模型。通俗说就是给用户打标签,而标签是通过对用户信息分析而来的高度精炼的特征标识。通过打标签可...

2018-07-22 12:35:26

阅读数 7139

评论数 0

条件随机场CRF 梳理

条件随机域(场)(conditional random fields,简称 CRF,或CRFs),是一种判别式概率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 如同马尔可夫随机场,条件随机场为具有无向的图模型,图中的顶点代表随机变量,顶点间的连线代表随机变量间的相...

2018-07-08 15:36:18

阅读数 473

评论数 0

Spark协同过滤算法---电影推荐系统

一、协同过滤算法概述 本人对算法的研究,目前还不是很深入,这里简单的介绍下其工作原理。 通常,协同过滤算法按照数据使用,可以分为: 1)基于用户(UserCF) 2)基于商品(ItemCF) 3)基于模型(ModelCF) 按照模型,可以分为: 1)最近邻模型:基于距离的协同...

2018-06-25 21:38:47

阅读数 663

评论数 0

word2vec 词向量

Word2vec,是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的...

2018-06-18 18:30:54

阅读数 898

评论数 0

特征选择常用方法整理

特征选择 在实际工程中,对于特征变量的选取,往往是基于业务经验,也就是所谓你的先验知识。 现在数据的特征维度很多,而能作为训练集的样本量却往往远小于特征数量(如基因测序、文本分类)。 特征选择的好处:便于理解和可视化数据,降低计算及存储压力,对抗维度灾难以提高模型预测准确率等等。 特征选择...

2018-06-14 19:36:12

阅读数 4843

评论数 0

XGBoost 原理及调参指南整理

XGBoost算法已经成为数据工程师的重要武器。它是一种十分精致的算法,可以处理各种不规则的数据。 构造一个使用XGBoost的模型十分简单。但是,提高这个模型的表现,调参很困难。 一、xgBoost优势 XGBoost算法可以给预测模型带来能力的提升。当你对它的高准确率背后的原理有更多了解的...

2018-06-13 20:49:29

阅读数 229

评论数 0

今日头条推荐算法原理 - 梳理

PS:腾讯新闻和今日头条,我每天都会对比着用,喜欢腾讯新闻的细致和头条的粗暴。 算法分发已经是信息平台、搜索引擎、浏览器、社交软件等几乎所有软件的标配,但同时,算法也开始面临质疑、挑战和误解。 今日头条的推荐算法,从 2012 年 9 月第一版开发运行至今,已经经过四次大的调整和修改。...

2018-06-11 12:29:12

阅读数 951

评论数 0

推荐系统,你需要了解的。

在现今的推荐技术和算法中,最被大家广泛认可和采用的是基于协同过滤的推荐方法。 1 协同过滤 协同过滤是利用集体智慧的一个典型方法。要理解什么是协同过滤 (Collaborative Filtering, 简称 CF),首先想一个简单的问题,如果你现在想看个电影,但你不知道具体看哪部,你会怎么做...

2018-06-06 22:33:50

阅读数 1425

评论数 1

TensorFlow分布式全套(原理,部署,实例)

TF的实现分为了单机实现和分布式实现,在分布式实现中,需要实现的是对client,master,worker process不在同一台机器上时的支持。数据量很大的情况下,单机跑深度学习程序,过于耗时,所以需要TensorFlow分布式并行。该实例是TF的经典入门实例手写字体识别MNIST基于分布式...

2018-06-04 13:53:28

阅读数 2474

评论数 1

随机采样方法整理

随机模拟也可叫做蒙特卡罗模拟(Monte Carlo Simulation)。这个方法的发展始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关,当时的几个大牛,包括乌拉姆、冯.诺依曼、费米、费曼、Nicholas Metropolis, 在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的...

2018-05-31 17:59:05

阅读数 846

评论数 0

组合算法 Bootstraping, Bagging, Boosting, AdaBoost, RandomForest, Gradient boosting

组合模型 Bootstraping 名字来自成语“pull up by your own bootstraps”,意思就是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下: 采用重抽样技术从...

2018-05-16 14:17:51

阅读数 846

评论数 0

机器学习算法三大神器GBDT、XGBoost、LightGBM

本文主要简要的比较了常用的boosting算法的一些区别,从AdaBoost到LightGBM,包括AdaBoost,GBDT,XGBoost,LightGBM四个模型的简单介绍,一步一步从原理到优化对比。AdaBoost原理原始的AdaBoost算法是在算法开始的时候,为每一个样本赋上一个权重值...

2018-04-23 11:42:58

阅读数 1401

评论数 2

自然语言处理 - jieba中文分词

“结巴”中文分词:做最好的 Python 中文分词组件。 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用...

2018-04-19 10:28:58

阅读数 1276

评论数 0

自然语言处理:关键词搜索

关键词提取:从文本中提取出与这篇文章意义最相关的词语。  关键词的作用:  1、文献检索初期,关键词作为搜索这篇论文的词语。  2、在文本聚类、分类、摘要等领域中有着重要的作用。  ——比如聚类时把关键词相似的几篇文章看成一个类团可以大大K-means聚类的收敛速度。  关键词提取大致有两种:  ...

2018-04-13 11:33:50

阅读数 492

评论数 0

蒙特卡罗算法

        蒙特·卡罗方法(Monte Carlo method),也称统计模拟方法,是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明,而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法。是指使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。与它对应的是确定性算法...

2018-04-11 13:59:53

阅读数 1536

评论数 0

卷积神经网络(分类与回归)简介及几种训练技巧

1.经典神经网络有:2012年提出的AlexNet和2014年提出的VGGNet,结构图分别如下: 2.分类与回归: (1)分类(classfication):就是经过经过一系列的卷积层和池化层之后,再经过全连接层得到样本属于每个类的得分,再用比如softmax分类其对其进行分类; ...

2018-04-09 13:47:22

阅读数 2159

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭