数据挖掘相关
yongjian_luo
这个作者很懒,什么都没留下…
展开
-
SPSS Clementine 数据挖掘入门<转>
这篇文章是从网上找到的,非常非常好,特别适合入门的人,里面有实际的一个挖掘例子,非常实用。推荐给大家。SPSS Clementine是Spss公司收购ISL获得的数据挖掘工具。在Gartner的客户数据挖掘工具评估中,仅有两家厂商被列为领导者:SAS和SPSS。SAS获得了最高ability to execute评分,代表着SAS在市场执行、推广、认知方面有最佳表现;而SPSS获得了最高的转载 2013-11-15 14:22:07 · 1860 阅读 · 0 评论 -
<转>Spark MLlib 数据预处理-特征变换(二)
作者:刘玲源链接:https://zhuanlan.zhihu.com/p/24069545来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。算法介绍:VectorIndexer解决数据集中的类别特征Vector。它可以自动识别哪些特征是类别型的,并且将原始值转换为类别指标。它的处理流程如下:1.获得一个向量类型的输入以及maxCategor转载 2017-01-12 14:19:59 · 2393 阅读 · 0 评论 -
<转>使用spark ml pipeline进行机器学习
一、关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程1、源数据ETL2、数据预处理3、特征选取4、模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。因此,对以上多个步骤、进行抽象建模,简化为流水线式工作流程则存在着可行性,对利用spark进行机器学习的用户来转载 2017-01-17 16:40:57 · 427 阅读 · 0 评论 -
<转>Spark Mllib逻辑回归算法分析
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3816289.html 本文以spark 1.0.0版本MLlib算法为准进行分析一、代码结构逻辑回归代码主要包含三个部分1、classfication:逻辑回归分类器2、optimization:优化方法,包含了随机梯度、LBFGS两种算法转载 2017-01-12 17:56:31 · 878 阅读 · 0 评论 -
<转> Spark 线性代数库 Breeze API 详解
转载请标明出处:小帆的帆的专栏运算加,减,乘,除向量与向量加:+减:-乘::*除::/规则1:乘除前面,加冒号;单独的乘号和除号分别表示点积和线性求解 规则2:累加效果,加等号import breeze.linalg.DenseVectorobject Test { def main(args: Array[String]) { va转载 2017-01-12 18:01:18 · 628 阅读 · 0 评论 -
<转> 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘
转载请注明:转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛,就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主,在打算转载 2017-01-13 10:14:49 · 1415 阅读 · 0 评论 -
<转> 基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘
转载请注明:转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛,就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主,在打算转载 2017-01-13 10:16:32 · 890 阅读 · 0 评论 -
<转>【DataFrame】数据离散化重组
离散化的原始数据来自 Spark 源码包,离散化函数选用 spark ml 包中的 Bucketizer 方法。[java] view plain copypackage ethink import org.apache.spark.sql.SQLContext import org.apache.spark.SparkC转载 2017-01-18 20:05:01 · 1763 阅读 · 0 评论 -
<转>Spark Mllib逻辑回归算法分析
一、代码结构逻辑回归代码主要包含三个部分1 、 classfication :逻辑回归分类器2 、 optimization :优化方法,包含了随机梯度、LBFGS两种算法3 、 evaluation :算法效果评估计算二、逻辑回归分类器1 、 LogisticRegressionModel 类(1) 根据训练数据集得到的weight转载 2017-01-22 10:49:06 · 463 阅读 · 0 评论 -
<转>斯坦福大学Andrew Ng教授主讲的《机器学习》公开课观后感
近日,在网易公开课视频网站上看完了《机器学习》课程视频,现做个学后感,也叫观后感吧。 学习时间 从2013年7月26日星期五开始,在网易公开课视频网站上,观看由斯坦福大学Andrew Ng教授主讲的计算机系课程(编号CS229)《机器学习》(网址http://v.163.com/special/opencourse/machinelearning.html)(注:最早是在新浪公开课上转载 2017-01-23 15:23:20 · 524 阅读 · 0 评论 -
<转>【重磅干货整理】机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总
原文出处:http://blog.csdn.net/zhongwen7710/article/details/45331915介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.《Deep Learning in Neural Networks: An Overview》介绍:这是瑞士转载 2017-02-13 14:46:50 · 2776 阅读 · 0 评论 -
<转>推荐系统中基于深度学习的混合协同过滤模型
近些年,深度学习在语音识别、图像处理、自然语言处理等领域都取得了很大的突破与成就。相对来说,深度学习在推荐系统领域的研究与应用还处于早期阶段。携程在深度学习与推荐系统结合的领域也进行了相关的研究与应用,并在国际人工智能顶级会议AAAI 2017上发表了相应的研究成果《A Hybrid Collaborative Filtering Model with Deep Structure for转载 2017-01-24 15:14:08 · 1184 阅读 · 0 评论 -
<转>关于SparkMLlib的基础数据结构Spark-MLlib-Basics
此部分主要关于MLlib的基础数据结构1、本地向量MLlib的本地向量主要分为两种,DenseVector和SparseVector,顾名思义,前者是用来保存稠密向量,后者是用来保存稀疏向量,其创建方式主要有一下三种(三种方式均创建了向量(1.0, 0.0, 2.0):[plain] view plain copyimport o转载 2017-01-11 12:06:14 · 307 阅读 · 0 评论 -
<转>Spark-Mllib 数据类型
一.本地向量 有如下几个类: Vector(基类),DenseVector,SparseVector,Vectors(工厂方法,推荐用)工厂模式是:定义一个用于创建对象的接口,让子类决定实例化哪一个类,使一个类的实例化延迟到子类import org.apache.spark.mllib.linalg.{Vectors,Vector} # linalg is shor转载 2017-01-11 11:50:25 · 340 阅读 · 0 评论 -
<转>Spark机器学习库(MLlib)指南
spark-1.6.1机器学习库(MLlib)指南MLlib是Spark的机器学习(ML)库。旨在简化机器学习的工程实践工作,并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。MLllib目前分为两个代码包:spark.mllib 包含基于RDD的原始算法API。spark转载 2017-01-11 11:42:41 · 930 阅读 · 0 评论 -
学习排序 Learning to Rank 小结<转>
学习排序(Learning to Rank)LTR(Learning torank)学习排序是一种监督学习(SupervisedLearning)的排序方法。LTR已经被广泛应用到文本挖掘的很多领域,比如IR中排序返回的文档,推荐系统中的候选产品、用户排序,机器翻译中排序候选翻译结果等等。IR领域传统的排序方法一般通过构造相关度函数,然后按照相关度进行排序。影响相关度的因素很多,比如上面提转载 2015-04-16 16:11:55 · 967 阅读 · 0 评论 -
Learning to Rank 简介<转>
去年实习时,因为项目需要,接触了一下Learning to Rank(以下简称L2R),感觉很有意思,也有很大的应用价值。L2R将机器学习的技术很好的应用到了排序中,并提出了一些新的理论和算法,不仅有效地解决了排序的问题,其中一些算法(比如LambdaRank)的思想非常新颖,可以在其他领域中进行借鉴。鉴于排序在许多领域中的核心地位,L2R可以被广泛的应用在信息(文档)检索,协同过滤等领域。转载 2015-04-16 17:02:30 · 667 阅读 · 0 评论 -
<转>【NLP】TF-IDF
出处URL地址:http://blog.csdn.net/lk7688535/article/details/52527917目录(?)[-]有一个词a有一个语料DD中有n篇文档TFIDFTF-IDFthen应用在NLP的task缺点优化总结附有一个词a,有一个语料D,D中有n篇文档TFTF,Term Frequency的缩写,中转载 2016-09-18 11:30:17 · 358 阅读 · 0 评论 -
<转> GBDT(MART)概念简介
GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种用于回归的机器学习算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。当把目标函数做变换后,该算法亦可用于分类或排序。 本文主要从高层明确几个GBDT概念,主要讲GBDT的两个版本以及GBDT是什么不是什么转载 2016-09-26 14:38:55 · 412 阅读 · 0 评论 -
<转>推荐系统原理介绍-用户画像简介
最近在做推荐系统,在项目组内做了一个分享。今天有些时间,就将逻辑梳理一遍,将ppt内容用文字沉淀下来,便于接下来对推荐系统的进一步研究。推荐系统确实是极度复杂,要走的路还很长。 A First Glance 为什么需要推荐系统——信息过载 随着互联网行业的井喷式发展,获取信息的方式越来越多,人们从主动获取信息逐渐变成了被动接受信息,转载 2016-12-26 16:54:43 · 1825 阅读 · 0 评论 -
<转>用户画像构建策略及应用实践
Qunar用户画像构建策略及应用实践1用户画像的构建原则我们做用户画像的目的有两个:必须从业务场景出发,解决实际的业务问题,之所以进行用户画像要么是获取新用户,或者是提升用户体验,或者是挽回流失用户等有明确的业务目标 。根据用户画像的信息做产品设计,必须要清楚知道用户长什么样子,有什么行为特征和属性,这样才能为用户设计产品或开展营销活转载 2016-12-26 17:28:21 · 627 阅读 · 0 评论 -
<转>基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘
转载请注明:转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛,就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主,在打算转载 2016-12-27 10:30:48 · 1896 阅读 · 1 评论 -
<转>基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘
转载请注明:转载 from http://blog.csdn.net/u011239443/article/details/53735609 近期参加了CCF举办的“大数据精准营销中搜狗用户画像挖掘”竞赛,就那它来写了。本博文会在这几周不断的完善更新ing1. 选题背景与意义1.1 用户画像与精准营销 “用户画像”是近几年诞生的名词。很多营销项目或很多广告主,在打算转载 2016-12-27 10:32:38 · 738 阅读 · 0 评论 -
<转>逻辑回归LR的特征为什么要先离散化
在工业界,很少直接将连续值作为特征喂给逻辑回归模型,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易scalable(扩展)。2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰。3.转载 2017-01-06 18:14:02 · 994 阅读 · 0 评论 -
<转>关于SparkMLlib的基础数据结构Spark-MLlib-Basics
此部分主要关于MLlib的基础数据结构1、本地向量MLlib的本地向量主要分为两种,DenseVector和SparseVector,顾名思义,前者是用来保存稠密向量,后者是用来保存稀疏向量,其创建方式主要有一下三种(三种方式均创建了向量(1.0, 0.0, 2.0):[plain] view plain copyimport o转载 2017-01-11 11:23:13 · 276 阅读 · 0 评论 -
<转>Spark 学习笔记:MLlib基础
MLlib:Machine Learning Library。主要内容包括:数据类型统计工具summary statisticscorrelationsstratified samplinghypothesis testingrandom data generation 分类和回归线性模型(SVM,逻辑回归,线性回归)朴素贝叶斯决策树ense转载 2017-01-11 11:41:52 · 312 阅读 · 0 评论 -
<转>雅虎开源TensorflowOnSpark,Ubuntu配置安装TensorflowOnSpark
一、引言 Yahoo在2016年2月左右开源了基于Spark/Hadoop的分布式深度学习框架—CaffeOnSpark,CaffeOnSpark被设计成为一个Spark深度学习包,Spark MLlib支持各种非深度学习算法用于分类、回归、聚类、推荐等,但目前缺乏深度学习这一关键能力,而CaffeOnSpark旨在填补这一空白。CaffeOnSpark API支持dataframes,以转载 2017-02-24 11:23:56 · 391 阅读 · 0 评论