算法
文章平均质量分 78
Running_you
这个作者很懒,什么都没留下…
展开
-
朴素贝叶斯公式形象化描述
网上看到很多对于朴素贝叶斯的文字描述,内容繁杂,不够简单,具体可参考该篇文章朴素贝叶斯案例,这里文字性的内容就不多说,主要强调点就是使用要求:各元素之间保持相互独立性。直接以几幅公式图来表述朴素贝叶斯的应用:假设M,N代表文档的类别(例如,’科技’或’体育’等),而A,B,C则分别表示不同的词汇(例如,’大数据’,’云计算’等词从属于科技类新闻,而’篮球’,’足球’等词从属于体育类新闻),一般贝叶斯原创 2015-08-10 19:54:09 · 794 阅读 · 0 评论 -
机器学习算法在什么情况下需要归一化?
转载:http://www.cnblogs.com/LBSer/p/4440590.html机器学习模型被互联网行业广泛应用,一般做机器学习应用的时候大部分时间是花费在特征处理上,其中很关键的一步就是对特征数据进行归一化,为什么要归一化呢?维基百科给出的解释:1)归一化后加快了梯度下降求最优解的速度;2)归一化有可能提高精度。下面我简单扩展解释下这两点。1 归一化为什么能提高梯度下降法求解最优解的速转载 2016-11-06 21:45:49 · 18473 阅读 · 0 评论 -
spark组件之graphx函数方法(二)
在网络计算中,graphx提供了基本的函数和算法来计算社交网络关系中的三角关系数量,下面简单记录下一组常用的命令作为学习巩固:1.启动spark-shell交互式环境: import org.apache.spark.graphx._ import org.apache.spark.graphx.util._2.利用graphx提供的类函数随机产生数据集 注:导入数据集方式(A:RDD原创 2016-06-15 11:17:56 · 2147 阅读 · 0 评论 -
网页数据传输加密方法(前js+后java)
确保bcprov及codec的jar包存在路径汇总import java.security.KeyPair;import java.security.KeyPairGenerator;import java.security.SecureRandom;import java.security.Security;import java.security.interfaces.RSAPrivat转载 2016-06-12 19:42:21 · 4739 阅读 · 0 评论 -
神经网络中交叉熵代价函数 求导
最近看了几篇神经网络的入门介绍知识,有几篇很浅显的博文介绍了神经网络算法运行的基本原理,首先盗用伯乐在线中的一个11行python代码搞定的神经网络,import numpy as np# sigmoid functiondef nonlin(x,deriv=False): if(deriv==True): return x*(1-x) return 1/(1+np原创 2016-04-15 15:17:21 · 4889 阅读 · 0 评论 -
Python scikit-learn机器学习:feature_selection模块
sklearn.feature_selection模块的作用是feature selection,关键在于选择合适的变量达到降维的目的,而feature extraction模块则是从数据集中利用某类算法抽取具有代表性的特征,例如tf-idf使用。Univariate feature selection:单变量的特征选择单变量特征选择的原理是分别单独的计算每个变量的某个统计指标,根据该指标来判断哪些转载 2016-03-01 11:10:18 · 6273 阅读 · 0 评论 -
mahout的安装,配置及聚类测试
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。最新版apache-mahout-distribution原创 2015-08-12 20:14:18 · 866 阅读 · 0 评论 -
关于spark运行FP-growth算法报错com.esotericsoftware.kryo.KryoException
Spark运行FP-growth异常报错在spark1.4版上尝试运行频繁子项挖掘算法是,照搬官方提供的python案例源码时,爆出该错误com.esotericsoftware.kryo.KryoException (java.lang.IllegalArgumentException: Can not set final scala.collection.mutable.ListBuffer f原创 2016-02-05 10:49:37 · 4056 阅读 · 0 评论 -
统计学习方法
统计方法是机器学习中不可或缺的基础理论,要想深入理解机器学习的算法本质,很有必要了解有关统计学方法,这里以李航的《统计学习方法》一书为教材,简单罗列后面会遇到统计方法,简单说:统计方法=模型+策略+算法。感知机K近邻法朴素贝叶斯决策树理论逻辑回归及最大熵模型支持向量机Adaboost思想EM算法及推广隐马尔科夫模型条件随机场原创 2015-12-23 19:47:45 · 442 阅读 · 0 评论 -
MAHOUT文本向量相似度计算
相似度计算算法mahout源包中包含了common,hadoop,lucent及mahout核心算法相关的classes,其中,对于mahout中常用的推荐,聚类及分类中的相似度计算,mahout中提供了若干种向量相似度计算的方法,如下图所示 关于每种相似度的计算原理这里不作详细介绍说明,可以参考以下博客: http://www.cnblogs.com/dlts26/archive/2012/0原创 2015-09-24 20:13:07 · 2259 阅读 · 0 评论 -
关于spark提交作业报错原因
spark提供了scala,java及python等脚本作业的功能,但是在实际运行中很容易卡在sc初始化问题上,这里主要原因在于启动spark环境后系统会自建sc环境,若用户在脚本中新建sc将会报错,但是不使用sc又难以达到脚本的效果,这里提供python脚本的提交方法说明: spark-submit –master local[4] svm.py而其中关于svm.py的内容则应该这么写:fr原创 2015-11-12 17:09:22 · 2001 阅读 · 0 评论 -
Mahout之推荐算法基本实例
Mahout中主要核心的三大算法为推荐,聚类及分类算法,今天就最基本的推荐算法做总结,推荐中常用的两个推荐算法是”user_based”和”item_based”,前者主要通过和你兴趣相似的人来发现新的你感兴趣的东西,而后者则是发现一些和你所喜欢的事物相似的事物。此外,还有一种基于“contend_based”的推荐算法,它是根据事物所拥有的元数据出现进行事物的推荐,例如,如果你喜欢的电影是斯皮尔伯原创 2015-08-24 13:06:52 · 6197 阅读 · 0 评论 -
MAHOUT之关联规则挖掘算法
需求说明目前正在对hive表中的数据做分析,期望从已有的数据中挖掘出类似购物篮的关联规则,但是单机环境下的关联规则算法实在是无法胜任大数据环境下的数据挖掘工作,无奈寻求大数据环境下的分布式挖掘算法,目前可供选用的关联规则挖掘算法有Apriori和fp-tree两种,前者较后者来说,当挖掘过万的记录时,效率上更是百倍的差距,所以选择mahout中提供的fpgrowth算法来实现关联规则挖掘。准备工作为原创 2015-09-06 22:42:51 · 2588 阅读 · 0 评论 -
费舍尔方法
朴素贝叶斯不能对分类概率进行大致估算,只能判定特征项属于哪一类的概率最大,因此费舍尔方法弥补该缺陷,可以直接估算特征项从属于某一类的概率值,下面首先列出基本代码以供参考,后期补充内容:# -*- coding: utf-8 -*-import reimport mathdef getwords(doc): splitter=re.compile('\\W*') words=[s.l原创 2015-08-13 18:05:53 · 1949 阅读 · 0 评论 -
Word2Vec
前言常见的文本挖掘领域首先需要对于词做定量化表示,目前已知的有One-hot Representation和Distributed Representation两种,有关两者的细节说明自行百度,这里需要强调词向量(Distributed Representation)的逻辑含义,它为什么能从一定的程度利用距离表示词语间的语义相似性。例如:对于 词(篮球)来说,如果我们已经跟它相关的几个词有(体育,运原创 2016-11-24 16:59:29 · 1502 阅读 · 0 评论