数据挖掘
MC_Zealot
No pain No gain
展开
-
<转>贝叶斯推断及其互联网应用(一):定理简介
作者: 阮一峰日期: 2011年8月25日一年前的这个时候,我正在翻译Paul Graham的《黑客与画家》。那本书的第八章,写了一个非常具体的技术问题----如何使用贝叶斯推断过滤垃圾邮件(英文版)。我没完全看懂那一章。当时是硬着头皮,按照字面意思把它译出来的。虽然译文质量还可以,但是心里很不舒服,下决心一定要搞懂它。一年过去了,我读了一些概率论文转载 2014-04-26 15:48:14 · 621 阅读 · 0 评论 -
如何选择机器学习算法
原贴地址:http://www.52ml.net/15063.html如何选择机器学习算法How do you know what machine learning algorithm to choose for your classification problem? Of course, if you really care about accuracy,转载 2015-01-03 15:52:39 · 471 阅读 · 0 评论 -
时间序列分析基础
原帖地址: http://blog.codinglabs.org/articles/time-series-analysis-foundation.html时间序列是现实生活中经常会碰到的数据形式。例如北京市连续一年的日平均气温、某股票的股票价格、淘宝上某件商品的日销售件数等等。时间序列分析的的目的是挖掘时间序列中隐含的信息与模式,并借此对此序列数据进行评估以及对系列的后续走势进行预测转载 2014-12-18 23:15:54 · 1641 阅读 · 0 评论 -
最近邻分类器(KNN)
介绍最近邻分类器原创 2014-12-03 13:18:57 · 16447 阅读 · 3 评论 -
推荐系统应用---电影类
假设MovieRecommendation.com是一个为互联网用户提供电影推荐的网站(下面成为MR),这个网站只提供电影的链接而不提供电影的内容展示。(这个是和hulu,土豆等一些视频网站不同的地方)在开始介绍整个网站之前,我们先假设我们拥有丰富的数据源,和许多正版的数据提供商有合作关系。这个网站和推荐系统有关的包括以下几个部分:1、数据仓库搭建数据仓库的转载 2014-11-18 10:33:45 · 891 阅读 · 0 评论 -
用Hadoop构建电影推荐系统
用Hadoop构建电影推荐系统Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop,转载 2014-10-29 18:09:40 · 1464 阅读 · 0 评论 -
数学之美番外篇:平凡而又神奇的贝叶斯方法
数学之美番外篇:平凡而又神奇的贝叶斯方法By 刘未鹏(pongba)C++的罗浮宫(http://blog.csdn.net/pongba)TopLanguage(http://groups.google.com/group/pongba)概率论只不过是把常识用数学公式表达了出来。——拉普拉斯记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛转载 2014-11-09 14:08:20 · 570 阅读 · 0 评论 -
怎样写一个拼写检查器
原帖地址:http://blog.youxu.info/spell-correct.html怎样写一个拼写检查器 Peter Norvig翻译: Eric You XU上个星期, 我的两个朋友 Dean 和 Bill 分别告诉我说他们对 Google 的快速高质量的拼写检查工具感到惊奇. 比如说在搜索的时候键入 [speling], 在不到 0.1 秒的时间转载 2014-11-09 13:26:34 · 611 阅读 · 0 评论 -
scikit-learn使用笔记与sign prediction简单小结
经Edwin Chen的推荐,认识了scikit-learn这个非常强大的python机器学习工具包。这个帖子作为笔记。(其实都没有笔记的意义,因为他家文档做的太好了,不过还是为自己记记吧,为以后节省若干分钟)。如果有幸此文被想用scikit-learn的你看见,也还是非常希望你去它们的主页看文档。主页中最值得关注的几个部分:User Guide几乎是machine learning的索引,各转载 2014-08-06 14:17:56 · 736 阅读 · 0 评论 -
Scikit Learn: 在python中机器学习
Warning警告:有些没能理解的句子,我以自己的理解意译。翻译自:Scikit Learn:Machine Learning in Python作者: Fabian Pedregosa, Gael Varoquaux先决条件Numpy, Scipy IPython matplotlib scikit-learn目录载入示例数据一个改变数据集大小转载 2014-08-05 14:30:17 · 795 阅读 · 0 评论 -
算法杂货铺——k均值聚类(K-means)
ss4.1、摘要 在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本转载 2014-06-04 15:11:34 · 675 阅读 · 0 评论 -
神经网络编程入门
本文主要内容包括: (1) 介绍神经网络基本原理,(2) AForge.NET实现前向神经网络的方法,(3) Matlab实现前向神经网络的方法 。第0节、引例 本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikipedia.org/wiki/Iris_flower_data_set 找到。这里转载 2014-06-04 13:51:25 · 865 阅读 · 0 评论 -
<转>深入浅出K-Means算法
原帖地址:http://www.csdn.net/article/2012-07-03/2807073-k-means转载 2014-04-29 11:36:29 · 536 阅读 · 0 评论 -
<转>TF-IDF与余弦相似性的应用(二):找出相似文章
作者: 阮一峰日期: 2013年3月21日上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来转载 2014-04-26 14:36:47 · 804 阅读 · 0 评论 -
SVD在推荐系统中的应用
原帖地址: http://blog.csdn.net/wuyanyi/article/details/7964883其实说参考也不准确,准确地说应该是半翻译半学习笔记。仔细整理一遍,感觉还是收获很大的。 线性代数相关知识:任意一个M*N的矩阵A(M行*N列,M>N),可以被写成三个矩阵的乘机:1.U:(M行M列的列正交矩阵)2.S:(M*N的转载 2015-01-15 21:45:32 · 553 阅读 · 0 评论