2015年10月_搜索与推荐Wiki

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 01月

原创 Mahout学习之聚类算法Kmeans

一：kMeans算法介绍聚类分析是一种静态数据分析方法，常被用于机器学习，模式识别，数据挖掘等领域。通常认为，聚类是一种无监督式的机器学习方法，它的过程是这样的：在未知样本类别的情况下，通过计算样本彼此间的距离（欧式距离,马式距离，汉明距离，余弦距离等）来估计样本所属类别。从结构性来划分，聚类方法分为自上而下和自下而上两种方法，前者的算法是先把所有样本视为一类，然后不断从这个...

2015-10-23 22:30:32 2573

原创 Mahout分类算法学习之实现Naive Bayes分类示例

1.简介(1) 贝叶斯分类器的分类原理发源于古典概率理论，是通过某对象的先验概率，利用贝叶斯公式计算出其后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。朴素贝叶斯分类器(Naive Bayes Classifier)做了一个简单的假定：给定目标值时属性之间相互条件独立，即给定元组的类标号，假定属性值有条件地相互独立，即在属性间不存在依赖关系。朴素贝叶斯分类模型所...

2015-10-23 20:37:23 3454

原创 CURL常用命令

下载单个文件，默认将输出打印到标准输出中(STDOUT)中curl http://www.centos.org通过-o/-O选项保存下载的文件到指定的文件中：-o：将文件保存为命令行中指定的文件名的文件中-O：使用URL中默认的文件名保存文件到本地1 # 将文件下载到本地并命名为mygettext.html2 curl -o mygettext.html http://...

2015-10-18 10:13:45 2087

原创 Mahout学习之命令行创建序列文件

一：命令行转换创建新的工作目录mkdir lastfmmkdir ./lastfm/originalexport WORK_DIR=/home/thinkgamer/document/lastfmcd $WORK_DIR自己准备一个数据集放在original文件夹下,例如将点击打开链接下边的数据保存在synthetic_control.data中进行转换，首先将其放在ori...

2015-10-11 14:25:37 2515

原创 Mahout学习之运行canopy算法错误及解决办法

一：将Text转换成Vector序列文件时在Hadoop中运行编译打包好的jar程序，可能会报下面的错误：Exceptioninthread"main"java.lang.NoClassDefFoundError: org/apache/mahout/common/AbstractJob书中和网上给的解决办法都是：把Mahout根目录下的相应的jar包复制到Hadoop...

2015-10-11 13:31:58 3119

原创 Mahout聚类算法学习之Canopy算法的分析与实现

3.1　Canopy算法3.1.1　Canopy算法简介 Canopy算法的主要思想是把聚类分为两个阶段：阶段一，通过使用一个简单、快捷的距离计算方法把数据分为可重叠的子集，称为“canopy”；阶段二，通过使用一个精准、严密的距离计算方法来计算出现在阶段一中同一个canopy的所有数据向量的距离。这种方式和之前的聚类方式不同的地方在于使用了两种距离计算方式，同时因为只计算了重叠部分的数据...

2015-10-09 16:05:16 5096

原创《机器学习实战》kMeans算法（K均值聚类算法）

============================================================================================《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记，包含对其中算法的理解和算法的Python代码实现另外博主这里有机器学习实战这本书的所有算法源代码和算法所用到的源文件，有需要的留言...

2015-10-07 15:34:36 11263 2

原创《机器学习实战》二分-kMeans算法（二分K均值聚类）

=====================================================================《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记也包含一些其他python实现的机器学习算法算法实现均采用pythongithub 源码同步：https...

2015-10-07 15:32:34 17948 2

原创关于Python多线程的理解

多线程和多进程是什么自行google补脑　　对于python多线程的理解，我花了很长时间，搜索的大部份文章都不够通俗易懂。所以，这里力图用简单的例子，让你对多线程有个初步的认识。单线程　　在好些年前的MS-DOS时代，操作系统处理问题都是单任务的，我想做听音乐和看电影两件事儿，那么一定要先排一下顺序。（好吧！我们不纠结在DOS时代是否有听音乐和看影的应用。^_^）from...

2015-10-06 17:51:09 2604

原创搜索引擎：文本分类——TF/IDF算法

原理TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TFIDF实际上是：TF * IDF，TF词频(Term Frequency)，IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，也就是...

2015-10-06 12:43:13 8524

高精度的加减乘除

高精度对于初学者来说并不是容易的，所以小编在这里这里整理了高精度的加减乘除运算，在一个程序中实现，希望对各位童鞋有所帮助

2014-08-23

基于用户兴趣分类的协同过滤推荐算法

2017-07-04

MySQL基本教程

这里边包含了所有MySQL数据库基本操作命令

2015-07-29

十大算法之线性查找算法

算法步骤： 1. 将n个元素每5个一组，分成n/5(上界)组。 2. 取出每一组的中位数，任意排序方法，比如插入排序。 3. 递归的调用selection算法查找上一步中所有中位数的中位数，设为x，偶数个中位数的情况下设定为选取中间小的一个。 4. 用x来分割数组，设小于等于x的个数为k，大于x的个数即为n-k。 5. 若i==k，返回x；若ik，在大于x的元素中递归查找第i-k小的元素。终止条件：n=1时，返回的即是i小元素。

2015-07-29

NLP汉语自然语言处理原理与实战

自然语言处理大体是从1950年代开始，虽然更早期也有作为。1950年，图灵发表论文“计算机器与智能”，提出现在所谓的“图灵测试”作为判断智能的条件。 1954年的乔治城实验涉及全部自动翻译超过60句俄文成为英文。研究人员声称三到五年之内即可解决机器翻译的问题。[1]不过实际进展远低于预期，1966年的ALPAC报告发现十年研究未达预期目标，机器翻译的研究经费遭到大幅削减。一直到1980年代末期，统计机器翻译系统发展出来，机器翻译的研究才得以更上一层楼。 1960年代发展特别成功的NLP系统包括SHRDLU——一个词汇设限、运作于受限如“积木世界”的一种自然语言系统，以及1964-1966年约瑟夫·维森鲍姆模拟“个人中心治疗”而设计的ELIZA——几乎未运用人类思想和感情的讯息，有时候却能呈现令人讶异地类似人之间的互动。“病人”提出的问题超出ELIZA 极小的知识范围之时，可能会得到空泛的回答。例如问题是“我的头痛”，回答是“为什么说你头痛？

2018-06-15