![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 82
简牧
架构,大数据,机器学习,互联网金融,写有用的博客!
展开
-
机器学习算法工程师需要掌握的技能与要踩的坑
今天就说说机器学习这个最近两年计算机领域最火的话题,这不是一篇机器学习的技术文章,只是告诉大家机器学习里面的坑实在是太多,而且很多还没入门或者刚刚入门的朋友们,其实在你们前面是个大坑,如果你励志要在这条路上走下去的话,请做好心理准备。转载 2017-04-04 09:06:32 · 874 阅读 · 0 评论 -
整理goolge blog:tensorflow feature columns简介
在现实世界中,有很多非数字型的特征,比如地址、经纬度、姓名等如下图所示:Figure 1. 非数字特征.为什么要处理成数字呢,因为在DNN中,每个神经元上执行的其实都是输入数据和权重的矩阵乘法和加法操作,因此我们必须将特征转换为一个数字或者数字的vector。以product_class表示产品分类特征为例,包含三个分类类型:kitchenware —— 厨房用品electronics...原创 2018-12-06 21:31:21 · 1487 阅读 · 0 评论 -
分布式深度学习part1:神经网络的分布式训练
这篇文章是关于神经网络分布式训练的三部系列文章中的第一篇。在第1部中,我们将了解如何通过GPU上的分布式计算显著地加速深度学习模型的训练,并讨论一些挑战并调查当前关于该主题的研究。 我们还将考虑神经网络的分布式训练是否适用于特定用例。介绍在大型数据集上训练的现代神经网络架构可以在各种领域获得令人印象深刻的性能表现,从语音和图像识别,到自然语言处理,再到欺诈检测和推荐系统等行业关注的应用。 但...翻译 2018-12-13 23:54:25 · 13170 阅读 · 1 评论 -
深度学习中的embedding
分类输入数据(Categorical Input Data)分类数据是指表示来自有限选择集的一个或多个离散项的输入特征。 例如,它可以是用户观看的电影集,文档中的单词集或人的职业。分类数据通过稀疏张量(sparse tensors)表示最有效,稀疏张量是具有非常少的非零元素的张量。 例如,如果我们正在构建电影推荐模型,我们可以为每个可能的电影分配一个唯一的ID,然后通过用户观看过的电影的稀疏张...原创 2018-12-03 23:14:47 · 71968 阅读 · 4 评论 -
tensoflow学模型-wide&deep(2) 官方代码分析
github上提供的应用代码关于wide&deep的作用,参加翻译的google一篇博客。数据集训练数据是Census Income Data Set该数据集包含48000条样本,其中属性有年龄(age)、职业(occupation)、教育(education)和收入(income)等,收入是二元标签,要不>50k要不<=50k。数据集大概分为32000条训练样原创 2018-12-07 23:30:31 · 2623 阅读 · 0 评论 -
tensoflow学模型-wide&deep(1)——google AI博客
人脑是一种复杂的学习机器,通过记住日常事件(“麻雀可以飞”和“鸽子可以飞”)形成规则,并将这些学习推广到适用于我们以前从未见过的事物(“有翅膀的动物可以飞”))。 也许更强大的是,记忆也允许我们进一步提炼我们的通用规则如一些特例(“企鹅不能飞”)。 当我们探索如何推进机器智能时,我们问自己这个问题 - 我们可以通过结合记忆(memorization)和泛化(generalization)的力量来教...翻译 2018-12-01 16:07:10 · 691 阅读 · 0 评论 -
为什么要使用Embedding Layers
为什么我们要开始使用embedding layer在介绍embedding的概念可能非常陌生。 例如,除了“将正整数(索引)转换为固定大小的稠密向量”之外,Keras文档没有提供任何解释。 快速谷歌搜索可能不会让你更进一步,因为这些类型的文档是第一个弹出的东西。 但是,在某种意义上,Keras的文档描述了所发生的一切。 那么为什么要使用embedding layer呢? 以下是两个主要原因:...翻译 2018-11-30 23:32:50 · 7221 阅读 · 0 评论 -
翻译:理解特征工程(3)-文本数据的传统方法
本章作者系列文章第三篇,主要讲的是处理文本数据的特征方法,参见英文原文,简单翻译整理如下,以便自己更好理解。本系列其他译文:整理Understanding Feature Engineering (Part 1) — Continuous Numeric Data整理Understanding Feature Engineering (Part 2) — Categorical Data(...翻译 2018-11-27 22:01:41 · 796 阅读 · 0 评论 -
翻译:理解特征工程(1)-连续数值数据
理解特征工程Part1-连续数值数据,读英文原文,用中文记录一些关键点,让自己理解更深刻。总述典型的机器学习pipeline端到端的机器学习pipeline如下获取原始数据(raw data)并且在这些数据之上直接构建模型(models)是鲁莽的因为我们不会拿到想要的结果或者表现,并且算法也不足够只能来自动从原始数据中提取有意义的特征(features)。这里主要关注的是上图中的dat...原创 2018-11-23 22:44:59 · 2194 阅读 · 0 评论 -
翻译:理解特征工程(2)-分类数据
理解特征工程(Part 2) - 分类数据本章作者主要将的是处理离散分类数据的策略,参见英文原文。Introduction(引言)我们在本系列的前一篇文章中介绍了处理结构化连续数值数据的各种特征工程策略。 在本文中,我们将研究另一种类型的结构化数据,它本质上是离散的,通常被称为分类数据。 处理数字数据通常比分类数据更容易,因为我们不必处理与任何属于分类类型的数据属性中的每个类别值有关的语义的...翻译 2018-11-24 15:23:29 · 4659 阅读 · 0 评论 -
mac上用conda安装tensorflow
背景最新想学习了解下火热的tensorflow,于是就想安装一个到本地。从网上也找了下网友的安装博客,但是说到底,东西还是官方的好,网上搜索的只能作为一点参考。 我的环境如下: 操作系统: mac OS 想要安装方式:conda(anaconda和miniconda都行,我安装的是miniconda) python版本:2.7最开始No module named ‘tensorflow’原创 2017-11-29 17:14:41 · 3028 阅读 · 0 评论 -
机器学习数学基础 - 导数和偏导数
概述导数(Derivative)是微积分中的重要基础概念。当函数y=f(x)的自变量x在一点x0上产生一个增量Δx时,函数输出值的增量Δy与自变量增量Δx的比值在Δx趋于0时的极限a如果存在,a即为在x0处的导数,记作f’(x0)或df(x0)/dx。 导数是函数的局部性质。一个函数在某一点的导数描述了这个函数在这一点附近的变化率。如果函数的自变量和取值都是实数的话,函数在某一点的导数就是该函数所原创 2017-04-05 19:29:58 · 5127 阅读 · 0 评论 -
机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)
回归在数学上来说是给定一个点集,能够用一条曲线去拟合之,如果这个曲线是一条直线,那就被称为线性回归,如果曲线是一条二次曲线,就被称为二次回归转载 2017-04-05 17:19:28 · 453 阅读 · 0 评论 -
深度学习在搜狗无线搜索广告中的应用
本次分享主要介绍深度学习在搜狗无线搜索广告中有哪些应用场景,以及分享了我们的一些成果,重点讲解了如何实现基于多模型融合的CTR预估,以及模型效果如何评估,最后和大家探讨DL、CTR 预估的特点及未来的一些方向。转载 2017-04-05 15:14:19 · 813 阅读 · 0 评论 -
分布式深度学习技术-AllReduce
Hello, I am Yuichiro Ueno. I participated in a summer internship program at PFN in 2017, and I currently work as a part-time engineer. I am an undergraduate student at Tokyo Institute of Technology, a...转载 2018-12-15 18:23:08 · 18593 阅读 · 3 评论