![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
AI/ML
文章平均质量分 66
u013063153
这个作者很懒,什么都没留下…
展开
-
深度学习框架的评估与比较
原文链接:http://www.infoq.com/cn/news/2016/01/evaluation-comparison-deep-learn?utm_campaign=infoq_content&人工智能无疑是计算机世界的前沿领域,而深度学习无疑又是人工智能的研究热点,那么现在都有哪些开源的深度学习工具,他们各自的优缺点又是什么呢?最近zer0n和bamos在GitHub上发表转载 2016-12-12 14:02:31 · 668 阅读 · 0 评论 -
Spark GraphX在淘宝的实践
由于Spark GraphX性能良好,又有丰富的功能和运算符,能在海量数据上自如运行复杂的图算法,淘宝尝试将它作为分布式图计算平台,进行各种算法尝试和生产应用。本文结合GraphX的原理和特点,分享其在淘宝的应用实践。早在0.5版本,Spark就带了一个小型的Bagel模块,提供了类似Pregel的功能。当然,这个版本还非常原始,性能和功能都比较弱,属于实验型产品。到0.8版本时,鉴于转载 2017-01-25 11:20:14 · 3356 阅读 · 0 评论 -
word2vec入门
word2vec要解决问题: 在神经网络中学习将word映射成连续(高维)向量,这样通过训练,就可以把对文本内容的处理简化为K维向量空间中向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。一般来说, word2vec输出的词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析等等。另外还有其向量的加法组合算法。官网上的例子是 :vector('转载 2017-02-04 13:35:00 · 713 阅读 · 0 评论 -
对比Caff/Torch/Theano/TensorFlow
转载于七月算法1.Compare2.How to Choose转载 2017-07-12 12:09:00 · 646 阅读 · 0 评论 -
计算文本相似度计算方法之一
1)余弦相似度:通过对两个文本分词,TF-IDF算法向量化,对比两者的余弦夹角,夹角越小相似度越高,但由于有可能一个文章的特征向量词特别多导致整个向量维度很高,使得计算的代价太大不适合大数据量的计算。2)SimHash:算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复原创 2017-08-08 14:04:46 · 1306 阅读 · 0 评论 -
海量数据相似度计算之simhash和海明距离
原文:http://blog.jobbole.com/46839/我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集的数据以千万计算,我们如何对于这些海量转载 2017-08-08 14:21:24 · 665 阅读 · 0 评论 -
ML贝叶斯分类算法
1.贝叶斯定理2.朴素贝叶斯分类原创 2017-08-08 14:43:16 · 518 阅读 · 1 评论 -
关联规则FpGrowth算法
上一篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除都需要扫描一次所有数据记录,造成整个算法在面临大数据集时显得无能为力。今天我们介绍一个新的算法挖掘频繁项集,效率比Aprori算法高很多。 FpGrowth算法通过构造一个树结构来压缩数据记录,转载 2017-08-03 14:17:59 · 1100 阅读 · 0 评论 -
深度学习word2vec笔记
基础篇算法篇应用篇深度学习word2vec笔记之基础篇一.前言伴随着深度学习的大红大紫,只要是在自己的成果里打上deep learning字样,总会有人去看。深度学习可以称为当今机器学习领域的当之无愧的巨星,也特别得到工业界的青睐。在各种大举深度学习大旗的公司中,Google公司无疑是旗举得最高的,口号喊得最响亮的那一个。2013年末,Google发布的word2vec工具引起了一转载 2017-01-18 12:05:17 · 1836 阅读 · 0 评论 -
美团推荐算法实践
框架从框架的角度看,推荐系统基本可以分为数据层、触发层、融合过滤层和排序层。数据层包括数据生成和数据存储,主要是利用各种数据处理工具对原始日志进行清洗,处理成格式化的数据,落地到不同类型的存储系统中,供下游的算法和模型使用。候选集触发层主要是从用户的历史行为、实时行为、地理位置等角度利用各种触发策略产生推荐的候选集。候选集融合和过滤层有两个功能,一是对出发层产生的不同候选集进行融合转载 2017-01-10 11:06:09 · 3269 阅读 · 0 评论 -
基于Spark Mllib,SparkSQL的电影推荐系统
原文链接:http://blog.csdn.net/qq1010885678/article/details/46052055本文测试的Spark版本是1.3.1本文将在Spark集群上搭建一个简单的小型的电影推荐系统,以为之后的完整项目做铺垫和知识积累整个系统的工作流程描述如下: 1.某电影网站拥有可观的电影资源和用户数,通过各个用户对各个电影的评分,汇总得到了海转载 2016-12-20 10:10:44 · 689 阅读 · 0 评论 -
自然语言处理技术(NLP)在推荐系统中的应用
原文:http://geek.csdn.net/news/detail/208281作者: 张相於,58集团算法架构师,转转搜索推荐部负责人,负责搜索、推荐以及算法相关工作。多年来主要从事推荐系统以及机器学习,也做过计算广告、反作弊等相关工作,并热衷于探索大数据和机器学习技术在其他领域的应用实践。 责编:何永灿(heyc@csdn.net) 本文为《程序员》原创文章,更多精彩文转载 2017-08-03 17:22:13 · 5692 阅读 · 0 评论 -
打造企业级云深度学习平台——小米云深度学习平台的架构设计与实现
原文:http://geek.csdn.net/news/detail/201311转载 2017-08-04 09:52:22 · 439 阅读 · 0 评论 -
卷积神经网络CNN(基础理论)
原文:http://blog.csdn.net/xierhacker/article/details/53463525最开始先把这篇笔记的博客和网络上面的资源先贴出来,方便大家查找。至于书在一开始的笔记中就已经提到过了,这里就不再反复写了。 http://neuralnetworksanddeeplearning.com/chap6.html http://cs231n.git转载 2017-08-11 16:01:35 · 982 阅读 · 0 评论 -
卷积神经网络(CNN)反向传播理论推导
原文:http://www.voidcn.com/blog/hearthougan/article/p-6633632.html 本文首先简单介绍CNN的结构,并不作详细介绍,若需要了解推荐看CS231n课程笔记翻译:卷积神经网络笔记。本文只要讲解CNN的反向传播,CNN的反向传播,其实并不是大多所说的和全连接的BP类似,CNN的全连接部分的BP是与它相同,但是CNN中卷积--池化、池转载 2017-08-11 16:29:54 · 1387 阅读 · 0 评论 -
八大机器学习框架对比及Tensorflow的优势
八大机器学习框架的对比:(1) TensorFlow:深度学习最流行的库之一,是谷歌在深刻总结了其 前身 DistBelief 的经验教训上形成的;它不仅便携、高效、可扩 展,还能再不同计算机上运行:小到智能手机,大到计算机集群都 能;它是一款轻量级的软件,可以立刻生成你的训练模型,也能 重新实现它;TensorFlow 拥抱创新,有强大的社区、企业支持, 因此它广泛用于从个人到企业、从初创原创 2017-01-25 10:28:35 · 32038 阅读 · 0 评论 -
梯度下降法的三种形式BGD、SGD以及MBGD
阅读目录1. 批量梯度下降法BGD2. 随机梯度下降法SGD3. 小批量梯度下降法MBGD4. 总结 在应用机器学习算法时,我们通常采用梯度下降法来对采用的算法进行训练。其实,常用的梯度下降法还具体包含有三种不同的形式,它们也各自有着不同的优缺点。 下面我们以线性回归算法来对三种梯度下降法进行比较。 一般线性回归函数的假设函数为:hθ=∑n转载 2017-01-24 11:58:55 · 572 阅读 · 0 评论 -
MLlib数据存储Vector/Matrix/LablePoint
在进行具体算法模型剖析之前,首先要清楚MLlib采用的数据结构,Spark官方文档也提供了英文的数据结构介绍,地址如下: http://spark.apache.org/docs/latest/mllib-data-types.htmlMLlib支持单机local vectors 和 matrices以及分布式矩阵。其中local vectors 和 matrices是一种用于公共接口的简转载 2017-01-22 15:19:48 · 633 阅读 · 0 评论 -
推荐算法中的 相似度计算
对用户的行为进行分析得到用户的偏好后,可以根据用户的偏好计算相似用户和物品,然后可以基于相似用户或物品进行推荐。这就是协同过滤中的两个分支了,即基于用户的协同过滤和基于物品的协同过滤。 关于相似度的计算,现有的几种方法都是基于向量(Vector)的,其实也就是计算两个向量的距离,距离越近相似度越大。在推荐场景中,在用户-物品偏好的二维矩阵中,我们可以将一个用户对所有物品的偏好作为一个原创 2016-12-23 16:42:45 · 21376 阅读 · 0 评论 -
Spark MLlib ALS交替最小二乘法 实例
1.训练数据数据格式为:用户id,物品id,评分1,1,5.01,2,1.01,3,5.01,4,1.02,1,5.02,2,1.02,3,5.02,4,1.03,1,1.03,2,5.03,3,1.03,4,5.04,1,1.04,2,5.04,3,1.04,4,5.02.实例代码package com.原创 2016-12-23 14:03:02 · 2530 阅读 · 3 评论 -
[深度学习基础] 深度学习基础及数学原理
原文链接:http://blog.csdn.net/hao_zhang_vision/article/details/52673631图像分类 (image classification) 问题是指, 假设给定一系列离散的类别(categories)(如猫, 狗, 飞机, 货车, ...), 对于给定的图像, 从这些类别中赋予一个作为它的标记 (label). 图像分类问题是计算机视觉领域的核转载 2016-11-23 16:43:40 · 1349 阅读 · 0 评论 -
十个值得一试的开源深度学习框架
原文链接:http://os.51cto.com/art/201511/497444.htm早些时候Google开源了TensorFlow(GitHub),此举在深度学习领域影响巨大,因为Google在人工智能领域的研发成绩斐然,有着雄厚的人才储备,而且Google自己的Gmail和搜索引擎都在使用自行研发的深度学习工具。无疑,来自Google军火库的TensorFlow必然是转载 2016-12-12 14:03:49 · 4389 阅读 · 0 评论 -
基于Spark机器学习和实时流计算的智能推荐系统
原文链接:http://blog.csdn.net/qq1010885678/article/details/46675501概要:随着电子商务的高速发展和普及应用,个性化推荐的推荐系统已成为一个重要研究领域。 个性化推荐算法是推荐系统中最核心的技术,在很大程度上决定了电子商务推荐系统性能的优劣,决定着是否能够推荐用户真正感兴趣的信息,而面对用户的不断提升的需求,推荐系统不仅需转载 2016-12-20 10:19:17 · 12106 阅读 · 3 评论 -
协同过滤推荐算法的原理及实现
协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物品的协同过滤算法(item-based collaborative filtering转载 2017-01-04 10:09:28 · 1099 阅读 · 0 评论 -
线性代数之奇异值(SVD)分解
在线性代数中,SVD(Singular Value Decomposition)是对实数矩阵(甚至复数矩阵)的一种因式分解。在信号、统计、图像图形学中都有应用。SVD非常强大且实用,因为数学界前辈已经证明任意的一个矩阵都可以做SVD分解。这一点特别重要,因为相比SVD分解,和SVD相近的特征值分解只能应用于方阵。第二个重要的点是:SVD分解可用来解决非方阵不能计算逆矩阵的问题。转载 2017-01-05 16:30:52 · 4777 阅读 · 0 评论 -
机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用
本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gmail.com。也可以加我的微博: @leftnoteasy前言: 上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。在上篇转载 2017-01-05 17:00:21 · 498 阅读 · 0 评论 -
Mllib API编程 线性回归、KMeans、协同过滤演示
原文链接:http://blog.csdn.net/qq1010885678/article/details/46050875本文测试的Spark版本是1.3.1在使用Spark的机器学习算法库之前,需要先了解Mllib中几个基础的概念和专门用于机器学习的数据类型特征向量Vector:Vector的概念是和数学中的向量是一样的,通俗的看其实就是一个装着Doubl转载 2016-12-20 10:15:38 · 566 阅读 · 0 评论 -
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 1)
原文地址:https://github.com/ty4z2008/Qix/blob/master/dl.md希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.此外:某些资料在中国访问需要梯子.《Brief History of Machine Learning》介绍:这是一篇介绍机器学习转载 2016-12-20 14:23:40 · 984 阅读 · 0 评论 -
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 2)
原文地址:https://github.com/ty4z2008/Qix/blob/master/dl2.md注:机器学习资料篇目一共500条,篇目二开始更新希望转载的朋友,你可以不用联系我.但是一定要保留原文链接,因为这个项目还在继续也在不定期更新.希望看到文章的朋友能够学到更多.此外:某些资料在中国访问需要梯子.《Image Scaling using转载 2016-12-20 14:25:03 · 1160 阅读 · 0 评论 -
TensorFlow安装过程中错误(window7)
import tensorflow as tf 报错为:Error importing tensorflow. Unless you are using bazel,you should not try to import tensorflow from its source directory;please exit the tensorflow source tree, an原创 2017-01-08 17:51:29 · 4721 阅读 · 3 评论 -
TF-IDF算法概述
假设现在有一篇很长的文章,要从中提取出它的关键字,完全不人工干预,那么怎么做到呢?又有如如何判断两篇文章的相似性的这类问题,这是在数据挖掘,信息检索中经常遇到的问题,然而TF-IDF算法就可以解决。这两天因为要用到这个算法,就先学习了解一下。 TF-IDF概述 在接触一个新算法时,首先当然是先去了解这个算法的本质,在此,我们先引用百度百科上的解释:TF-IDF(term转载 2017-01-19 11:17:06 · 801 阅读 · 0 评论