
机器学习
Star先生
技术为本,行业为先!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
宝贵数据集——用于数据挖掘、机器学习、文本挖掘
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b2、几个实用的测试数据集下载的网站 http://www.cs.toronto.edu/~roweis/data.html http://www.cs.toronto.edu/~roweis/data.html http://kdd.ics.uci.edu/summary.task.type.html原创 2015-08-09 18:55:00 · 3650 阅读 · 0 评论 -
c++求若干个集合的笛卡尔积
大家都知道求任意两个集合的笛卡尔积一般是如下方式原创 2016-10-31 15:04:06 · 5562 阅读 · 2 评论 -
《machine learning with spark》学习笔记--文本挖掘
We will introduce more advanced text processing techniques available in MLlib to work with large-scale text datasets.In this article, we will:Work through detailed examples that illustrate data proces原创 2016-02-15 21:11:11 · 2531 阅读 · 0 评论 -
《machine learning with spark》学习笔记--聚类
Next, we will consider the case when we do not have labeled data available.This is called unsupervised learning, as the model is not supervised with the true target label. The unsupervised case is very原创 2016-02-14 23:01:44 · 1849 阅读 · 0 评论 -
《machine learning with spark》学习笔记--分类
In this article, you will learn the basics of classification models and how they can be used in a variety of contexts. Classification generically refers to classifying things into distinct categories o原创 2016-02-13 22:09:54 · 1082 阅读 · 0 评论 -
《machine learning with spark》学习笔记--推荐模型
Prepare dataDataSource DownloadUpload data to HDFSIt’s easy for the programmers who are familiar to hadoop , not repeat them here, HDFS path data herein is located in hdfs://master:9000/user/root/inpu原创 2016-02-02 21:21:38 · 1548 阅读 · 0 评论 -
基于贝叶斯算法的文本分类算法
基本定义分类是把一个事物分到某个类别中。一个事物具有很多属性,把它的众多属性看作一个向量,即x=(x1,x2,x3,…,xn),用x这个向量来代表这个事物,x的集合记为X,称为属性集。类别也有很多种,用集合C={c1,c2,…cm}表示。一般X和C的关系是不确定的,可以将X和C看作是随机变量,P(C|X)称为C的后验概率,与之相对的,P(C)称为C的先验概率。 根据贝叶斯公式,后验概率P(C|X)原创 2015-10-03 19:08:31 · 1356 阅读 · 0 评论 -
初学机器学习的四种方式
学习机器学习有很多方法,大多数人选择从理论开始。 如果你是个程序员,那么你已经掌握了把问题拆分成相应组成部分及设计小项目原型的能力,这些能力能帮助你学习新的技术、类库和方法。这些对任何一个职业程序员来说都是重要的能力,现在它们也能用在初学机器学习上。 要想有效地学习机器学习你必须学习相关理论,但是你可以利用你的兴趣及对知识的渴望,来激励你从实际例子学起,然后再步入对算法的数学理解。 通过本文你原创 2015-09-29 18:49:36 · 2580 阅读 · 0 评论 -
一种面向高维数据的集成聚类算法
聚类集成已经成为机器学习的研究热点,它对原始数据集的多个聚类结果进行学习和集成,得到一个能较好地反映数据集内在结构的数据划分。很多学者的研究证明聚类集成能有效地提高聚类结果的准确性、鲁棒性和稳定性。本文提出了一种面向高维数据的聚类集成算法。该方法针对高维数据的特点,先用分层抽样的方法结合信息增益对每个特征簇选择合适数量比较重要的特征的生成新的具代表意义的数据子集,然后用基于链接的方法对数据子集上生成原创 2015-08-01 21:23:24 · 19909 阅读 · 8 评论 -
Apriori算法
基本原理关联分析(association analysis)就是从大规模数据集中寻找物品间的隐含关系。这里的主要问题是,寻找物品的不同组合是一项十分耗时的任务,所需计算代价很高,蛮力搜索方法并不能解决这个问题,所以需要用更智能的方法在合理的时间内找到频繁项集。Apriori算法正是基于该原理得到的。关联分析是一种在大规模数据集中寻找有趣关系的任务。这些关系分为两种形式:频繁项集和关联规则。频繁项集(原创 2015-08-12 09:48:26 · 1843 阅读 · 0 评论 -
Microsoft 神经网络分析算法
本篇文章继续我们的微软挖掘系列算法总结,前几篇文章已经将相关的主要算法做了详细的介绍。在开始Microsoft 神经网络分析算法之前,本篇我们先将神经网络分析算法做一个简单介绍,此算法由于其本身的复杂性,所以我打算在开始之前先将算法原理做一个简单的总结,因为本身该算法就隶属于高等数学的研究范畴,我们对算法的推断和验证过程不做研究,只介绍该算法特点以及应用场景,且个人技术能力有限,不当之处还望勿喷。原创 2015-08-09 18:40:57 · 4806 阅读 · 0 评论 -
《神经网络与深度学习》编程笔记
小白学习神经网络的一些笔记,参考书上的代码实现的。原理在附件的pdf中,注释就不写了。纯手打,调试ok原创 2017-12-25 15:02:08 · 1312 阅读 · 1 评论