机器学习
文章平均质量分 92
AISeekOnline
* 不要在该努力拼搏的年纪选择安逸 *
展开
-
谱聚类(Spectral Clustering,简称SP)(使用R语言调用包)
谱聚类是在R的“CRAN Task Views”功能中的clusterview下的kernlab包中,因此首先要安装cluster view,安装过程见博文R中的“CRAN Task Views”功能。kernlab的使用手册参见:http://cran.r-project.org/web/packages/kernlab/kernlab.pdf 在R中,调用的代码如下:#载入ke转载 2016-09-05 08:46:14 · 4565 阅读 · 1 评论 -
欢迎使用CSDN-markdown编辑器
机器学习之决策树CART概念 分类和回归树(CART)模型有Breiman等人在1984年提出,是应用广泛的决策树学习方法,CART同样由特征选择、树的生成及树的剪枝组成,既可以用于分类也可以用于回归. CART是在给定输入随机变量XX条件下输出随机变量YY的条件概率分布的学习方法. CART假设决策树是二叉树, 内部节点特征取值为”是”和”否”, 即这样的决策树等价于原创 2017-11-03 07:51:42 · 212 阅读 · 0 评论 -
深度学习算法的几个难点
1、局部最优问题。深度学习算法的目标函数,几乎全都是非凸的。而目前寻找最优解的方法,都是基于梯度下降的。稍微有点背景知识的人都知道,梯度下降方法是解决不了非凸问题的。因此,如果找到最优解,将是深度学习领域,非常值得研究的课题。andrew在google的工作,也就是那只猫,其实训练过程是让人很费解的。为了缩短训练时间,项目组采用了分布式训练的方式。采用了1000台计算机,在不同的计转载 2017-03-15 09:33:08 · 2000 阅读 · 0 评论 -
一步步从零开始:使用PyCharm和SSH搭建远程TensorFlow开发环境
一般而言,大型的神经网络对硬件能力有着较高的需求――往往需要强劲的 GPU 来加速计算。但是你也许还是想拿着一台笔记本坐在咖啡店里安静地写 TensorFlow 代码,同时还能享受每秒数万亿次的浮点运算(teraFLOPS)速度?其实这个目标不难实现,使用 PyCharm 中的一个远程解释器,你就能通过远程的方式获得几乎和本地计算时一样的性能。Erik Hallstrm 在本文中分享了如何使用 P原创 2017-03-29 19:55:54 · 9853 阅读 · 1 评论 -
fastText具体代码实现过程
标签传播算法(Label Propagation)及Python实现zouxy09@qq.comhttp://blog.csdn.net/zouxy09 众所周知,机器学习可以大体分为三大类:监督学习、非监督学习和半监督学习。监督学习可以认为是我们有非常多的labeled标注数据来train一个模型,期待这个模型能学习到数据的分布,以期对未来没有见到的样本做预测。那这个性能的源头--训练数据,就原创 2017-07-03 18:57:51 · 7990 阅读 · 0 评论 -
A Python interface for Facebook fastText library
Latest Version: 0.8.3fasttext is a Python interface for Facebook fastText原创 2017-07-04 10:20:43 · 1368 阅读 · 0 评论 -
Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介
Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介时间 2015-09-09 07:05:00 博客园-原创精华区原文 http://www.cnblogs.com/shishanyuan/p/4747761.html主题 Spark MLlib【注】该系列文章以及使用到安装包/测试数据 可以在《 倾情大奉送--转载 2017-03-23 20:51:59 · 723 阅读 · 0 评论 -
条件随机场入门(二) 条件随机场的模型表示
linear-chain 条件随机场条件随机场(conditional random field)是给定随机变量 X 条件下,随机变量 Y 的马尔可夫随机场。本文主要介绍定义在线性链上的特殊的条件随机场,称为线性链条件随机场(linear-chain CRF)。线性链条件随机场可以用于机器学习里的标注问题。这时,在条件概率模型 P(Y|X)P(Y|X) 中,Y 是输出变量,表示标记序列原创 2017-03-05 10:58:23 · 6671 阅读 · 0 评论 -
条件随机场入门(一) 概率无向图模型
引言条件随机场(conditional random field,以下简称CRF) 是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场(HMM 是状态序列的 Markov Chain)。CRF 可以用于不同的预测问题,在 Machine Learning 领域里 CRF 一般用作处理标注问题。常用的就是线性链(linear-ch原创 2017-03-05 10:53:56 · 6717 阅读 · 1 评论 -
标签传播算法(Label Propagation)及Python实现
标签传播算法(Label Propagation)及Python实现zouxy09@qq.comhttp://blog.csdn.net/zouxy09 众所周知,机器学习可以大体分为三大类:监督学习、非监督学习和半监督学习。监督学习可以认为是我们有非常多的labeled标注数据来train一个模型,期待这个模型能学习到数据的分布,以期对未来没有见到的样本做预转载 2017-03-04 10:03:09 · 1295 阅读 · 0 评论 -
欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl转载 2017-03-03 20:50:20 · 269 阅读 · 0 评论 -
Spark 实战,第 6 部分: 基于 Spark ML 的文本分类
本文将通过一个手机短信分类预测的案例向读者介绍文本分析的基本步骤和方法,实现上将使用 Spark ML 的多层感知器分类器及 Word2Vec 文本向量化工具,通过本文的阅读,读者会学习到使用 Spark ML 进行文本分析处理的基本方法和相关工具,为进一步深入研究和学习打下基础。转载 2016-12-25 21:25:28 · 5271 阅读 · 0 评论 -
Spark 实战,第 5 部分: 使用 ML Pipeline 构建机器学习工作流
本文将通过一个分类预测的机器学习问题向读者展示如何使用 Spark 新的 ML Pipeline 库构建机器学习的工作流。通过本文的阅读,读者将会了解到 ML Pipeline 与 MLlib 相比在设计上的独到和使用上的不同之处,并且会深入理解 ML Pipeline 的基本概念和工作方式,为进一步学习和深入研究打下良好的基础。转载 2016-12-25 21:24:25 · 1140 阅读 · 0 评论 -
Spark 实战,第 4 部分: 使用 Spark MLlib 做 K-means 聚类分析
MLlib 是 Spark 生态系统里用来解决大数据机器学习问题的模块。本文将以聚类分析这个典型的机器学习问题为基础,向读者介绍如何使用 MLlib 提供的 K-means 算法对数据做聚类分析,我们还将通过分析源码,进一步加深读者对 MLlib K-means 算法的实现原理和使用方法的理解。转载 2016-12-25 21:23:16 · 1910 阅读 · 0 评论 -
Spark 实战,第 3 部分: 使用 Spark SQL 对结构化数据进行统计分析
本文将通过两个例子向读者展示如何使用 Spark SQL/DataFrame API 编写应用程序来对结构化的大数据进行统计分析,并且还会通过分析程序运行日志以及利用 Spark Web Console 向读者介绍 Spark 应用程序运行的基本过程和原理。通过本文的阅读,读者将会对 Spark SQL 模块有较为深入的认识和理解。转载 2016-12-25 21:21:58 · 1509 阅读 · 0 评论 -
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
本文旨在通过具有实际意义的案例向读者介绍如何使用 Kafka 分布式消息框架和 Spark 的 Streaming 模块构建一个实时的数据处理系统。内容将涉及数据产生,数据读取,数据处理,结果存储等数据系统处理的基本环节,也会提出一些开放式的问题,供读者一起讨论。转载 2016-12-25 21:20:09 · 528 阅读 · 0 评论 -
准确率,召回率,F1 值、ROC,AUC、mse,mape评价指标
在机器学习、数据挖掘领域,工业界往往会根据实际的业务场景拟定相应的业务指标。本文旨在一起学习比较经典的三大类评价指标,其中第一、二类主要用于分类场景、第三类主要用于回归预测场景,基本思路是从概念公式,到优缺点,再到具体应用(分类问题,本文以二分类为例)。1.准确率P、召回率R、F1 值定义 准确率(Precision):P=TP/(TP+FP)。通俗地讲,就是预测正确的转载 2016-12-01 19:02:19 · 820 阅读 · 0 评论 -
支持向量机SVM原理
版权声明:如需转载,请注明出处http://blog.csdn.net/a8198252941.关键概念及学习目标线性&非线性分类问题&核技巧 非线性分类问题是指通过利用非线性模型才能很好地进行分类的问题。如上图左侧,我们无法用直线(线性模型)将正负例正确分开,但可以用一条椭圆曲线(非线性模型)将他们正确分开。此时,我们可以进行一个非线性变换。核技巧应用转载 2016-12-01 16:36:19 · 454 阅读 · 1 评论 -
基于XGBoost的PU-Learning
论文:Detecting positive and negative deceptive opinions using PU-learningPU-learning是一种只有正样本的半监督的二分类器。在实际工程应用中,有时候我们会遇到只有正样本而没有负样本的分类任务,或者说负样本是不纯的,即负样本中掺杂有部分正样本。PU-learning提供了一种选择可靠负样本的机制,具体算法如下:原始的...原创 2018-09-18 23:25:56 · 10373 阅读 · 0 评论