- 博客(10)
- 资源 (19)
- 收藏
- 关注
原创 Mahout学习之聚类算法Kmeans
一:kMeans算法介绍 聚类分析是一种静态数据分析方法,常被用于机器学习,模式识别,数据挖掘等领域。通常认为,聚类是一种无监督式的机器学习方法,它的过程是这样的:在未知样本类别的情况下,通过计算样本彼此间的距离(欧式距离,马式距离,汉明距离,余弦距离等)来估计样本所属类别。从结构性来划分,聚类方法分为自上而下和自下而上两种方法,前者的算法是先把所有样本视为一类,然后不断从这个...
2015-10-23 22:30:32 2517
原创 Mahout分类算法学习之实现Naive Bayes分类示例
1.简介(1) 贝叶斯分类器的分类原理发源于古典概率理论,是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯分类器(Naive Bayes Classifier)做了一个简单的假定:给定目标值时属性之间相互条件独立,即给定元组的类标号,假定属性值有条件地相互独立,即在属性间不存在依赖关系。朴素贝叶斯分类模型所...
2015-10-23 20:37:23 3407 1
原创 CURL常用命令
下载单个文件,默认将输出打印到标准输出中(STDOUT)中curl http://www.centos.org通过-o/-O选项保存下载的文件到指定的文件中:-o:将文件保存为命令行中指定的文件名的文件中-O:使用URL中默认的文件名保存文件到本地1 # 将文件下载到本地并命名为mygettext.html2 curl -o mygettext.html http://...
2015-10-18 10:13:45 2031
原创 Mahout学习之命令行创建序列文件
一:命令行转换创建新的工作目录mkdir lastfmmkdir ./lastfm/originalexport WORK_DIR=/home/thinkgamer/document/lastfmcd $WORK_DIR自己准备一个数据集放在original文件夹下,例如将点击打开链接下边的数据保存在synthetic_control.data中进行转换,首先将其放在ori...
2015-10-11 14:25:37 2443
原创 Mahout学习之运行canopy算法错误及解决办法
一:将Text转换成Vector序列文件时在Hadoop中运行编译打包好的jar程序,可能会报下面的错误:Exceptioninthread"main"java.lang.NoClassDefFoundError: org/apache/mahout/common/AbstractJob书中和网上给的解决办法都是:把Mahout根目录下的相应的jar包复制到Hadoop...
2015-10-11 13:31:58 3081
原创 Mahout聚类算法学习之Canopy算法的分析与实现
3.1 Canopy算法3.1.1 Canopy算法简介 Canopy算法的主要思想是把聚类分为两个阶段:阶段一,通过使用一个简单、快捷的距离计算方法把数据分为可重叠的子集,称为“canopy”;阶段二,通过使用一个精准、严密的距离计算方法来计算出现在阶段一中同一个canopy的所有数据向量的距离。这种方式和之前的聚类方式不同的地方在于使用了两种距离计算方式,同时因为只计算了重叠部分的数据...
2015-10-09 16:05:16 4909
原创 《机器学习实战》kMeans算法(K均值聚类算法)
============================================================================================《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包含对其中算法的理解和算法的Python代码实现另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件,有需要的留言...
2015-10-07 15:34:36 11079 6
原创 《机器学习实战》二分-kMeans算法(二分K均值聚类)
=====================================================================《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法 算法实现均采用pythongithub 源码同步:https...
2015-10-07 15:32:34 17692 6
原创 关于Python多线程的理解
多线程和多进程是什么自行google补脑 对于python多线程的理解,我花了很长时间,搜索的大部份文章都不够通俗易懂。所以,这里力图用简单的例子,让你对多线程有个初步的认识。单线程 在好些年前的MS-DOS时代,操作系统处理问题都是单任务的,我想做听音乐和看电影两件事儿,那么一定要先排一下顺序。(好吧!我们不纠结在DOS时代是否有听音乐和看影的应用。^_^)from...
2015-10-06 17:51:09 2568
原创 搜索引擎:文本分类——TF/IDF算法
原理TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是:如果包含词条t的文档越少,也就是...
2015-10-06 12:43:13 8267
word2vec.zip
2019-11-13
NLP汉语自然语言处理原理与实战
2018-06-15
gephi-0.9.1-windows.exe
2017-02-14
mysql-connector-java-5.0.4-bin.jar
2017-02-14
commons-el-1.0.jar,jasper-compiler.jar,jasper-runtime.jar
2016-07-28
从疝气病症预测病马的死亡率的测试数据集
2016-04-25
十大算法之线性查找算法
2015-07-29
securboot未完全配置消除补丁
2014-08-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人