![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark笔记
文章平均质量分 63
杨过悔
这个作者很懒,什么都没留下…
展开
-
初始spark
Spark作为新一代的云计算框架,他的目的:for speeding up the Hadoop computational computing software process.原本spark是hadoop的一个子项目,在2013他成为Apache的基金项目,2014开始成为top level Apache projectspark的三个特性 1.学spark总会与had原创 2015-10-22 13:16:14 · 396 阅读 · 0 评论 -
FP-Growth算法
http://blog.sina.com.cn/s/blog_6fb7db430100vdj7.html 本文所采用图片均来自清华大学计算机系王建勇老师的课程《数据挖掘:原理与算法》http://dbgroup.cs.tsinghua.edu.cn/wangjy/DM/DataMining.html(Han, Pei and Yin @SIGMOD'转载 2016-03-15 10:27:38 · 984 阅读 · 0 评论 -
prefixspan算法
http://blog.sina.com.cn/s/blog_6e85bf420100o66q.html prefixspan算法韩家炜老师在2004年提出的序列模式算法,该算法和他在2000提出的FP_growth算法有很大的相似之处,都避免产生候选序列。奇怪的是为什么第二个算法要4年后才提出。 prefixspan算法的核心是产生前缀和对应的后缀,每次递归都将合适的后缀变为转载 2016-03-15 11:22:22 · 2289 阅读 · 0 评论 -
sparksql与hive整合
http://stark-summer.iteye.com/blog/2245286 hive配置编辑 $HIVE_HOME/conf/hive-site.xml,增加如下内容:Prettyprint代码 hive.metastore.uris thrift://master:9083 Thrift uri f转载 2016-03-27 20:46:01 · 1083 阅读 · 0 评论 -
Spark On YARN 集群安装部署
http://wuchong.me/blog/2015/04/04/spark-on-yarn-cluster-deploy/转载 2016-04-13 17:58:52 · 1540 阅读 · 0 评论 -
Spark组件之GraphX学习9--使用pregel函数求单源最短路径
http://www.voidcn.com/blog/xubo245/article/p-5930144.html 1解释使用pregel函数求单源最短路径GraphX中的单源点最短路径例子,使用的是类Pregel的方式。核心部分是三个函数:1.节点处理消息的函数 vprog: (VertexId, VD, A) => VD (节点id,节点属性,消息) => 节转载 2016-05-25 14:45:04 · 1272 阅读 · 0 评论 -
spark pregel计算pageRanks
import org.apache.spark._import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.graphx._cl原创 2016-05-25 15:59:07 · 1312 阅读 · 1 评论 -
ML Pipelines
ML Pipelines: A New High-Level API for MLlibby Xiangrui Meng, Joseph Bradley, Evan Sparks and Shivaram Venkataraman Posted in ENGINEERING BLOGJanuary 7, 2015MLlib’s goal is to make p转载 2016-05-21 21:13:52 · 673 阅读 · 0 评论 -
spark ML 使用Word2Vec
1.创建DFval documentDF = sqlContext.createDataFrame(Seq( "Hi I heard about Spark".split(" "), "I wish Java could use case classes".split(" "), "Logistic regression models are neat".split(" ")原创 2016-05-22 10:00:52 · 4974 阅读 · 0 评论 -
sparl ML使用TFIDF
TFIDF将文本向量化,用于后期的特征使用1.创建DF// $example on$val sentenceData = sqlContext.createDataFrame(Seq( (0, "Hi I heard about Spark"), (0, "I wish Java could use case classes"), (1, "Logistic regr原创 2016-05-22 10:31:20 · 963 阅读 · 0 评论 -
spark PIPELINE使用
ML中的pipeline估计是参考了py的Scipy等把1.PIPELINE的主要部分就是val pipeline = new Pipeline() .setStages(Array(tokenizer, hashingTF, lr))// Fit the pipeline to training documents.val model = pipeline.fit(tr原创 2016-05-22 10:52:06 · 3236 阅读 · 0 评论 -
spark PIPELINE 的交叉验证
1.创建CrossValidator val crossval = new CrossValidator() .setEstimator(pipeline) .setEvaluator(new BinaryClassificationEvaluator) 第一个是pipeline程序第二个是模型的求值函数 2.pipeline以前构造过,这里省过 3原创 2016-05-22 11:18:13 · 2919 阅读 · 1 评论 -
spark ML快速生成分类的数值特征化
val indexer = new StringIndexer() .setInputCol("category") .setOutputCol("categoryIndex") .fit(df)val indexed = indexer.transform(df)//数值化val converter = new IndexToString() .setInpu原创 2016-05-22 12:14:51 · 1186 阅读 · 0 评论 -
解读2015之Spark篇:新生态系统的形成
http://www.tuicool.com/articles/RJ7Vza 解读2015之Spark篇:新生态系统的形成时间 2016-01-07 12:00:00 InfoQ原文 http://www.infoq.com/cn/articles/2015-Review-Spark 主题 Spark 数据挖掘编者按:2015年,整转载 2016-05-22 12:43:41 · 1212 阅读 · 0 评论 -
GMM, Gaussian Mixture Model, 高斯混合模型
http://blog.csdn.net/manji_lee/article/details/41335307【专家问答】阿里陈康贤:探讨大型网站之架构 走进VR开发世界——我们离开发一款VR大作还有多远? CSDN发福利啦!C币、京东卡、现金任你选 GMM, Gaussian Mixture Model, 高斯混合模型转载 2016-05-22 18:59:59 · 918 阅读 · 1 评论 -
Collaborative Filtering
http://www.cnblogs.com/blessw/archive/2010/03/27/1698637.html 协同过滤的主要目标:由于网络信息量的增多,用户往往被淹没在信息的海洋里,很难很轻易的找到自己感兴趣的topic。协同过滤就是为了把用户最可能感兴趣的信息推送给用户(Recommer system)。协同过滤的方法: model-base,user转载 2016-03-15 00:14:39 · 596 阅读 · 0 评论 -
Power iteration clustering (PIC)
Power iteration clustering (PIC) is a scalable and efficient algorithm for clustering vertices of a graph given pairwise similarties as edge properties, described in Lin and Cohen, Power Iteration C转载 2016-03-14 16:01:47 · 1427 阅读 · 0 评论 -
NetCat
by Jian Lee简介使用隐藏命令行参数正/反向域名解析参数详解案例监听端口(制作蜜罐)端口扫描ftp 服务器两台服务器文件校验使用注意简介使用最简单的使用: ”nc 主机名/IP 端口号/服务名",只要甲主机打开了端口(任何对外服务的端口),乙主机就可以使用nc命令连接这个端口。比如nmap查看到172.16.70.140开了22端转载 2015-11-02 15:10:34 · 476 阅读 · 0 评论 -
范数定义
http://trailblizer.blog.163.com/blog/static/5963036420115137435610/ 范数(norm)是在向量空间上定义的一个实值函数:V->R,一般用记号||x||表示,它满足以下三个性质:(1) ||x||≥0, ||x||=0 ?=? x=0(2) ||ax||=|a|?||x|| (a为数域F中的数)(3)||x+y||转载 2016-03-15 20:32:26 · 1651 阅读 · 0 评论 -
数据预处理 - 归一化/标准化/正则化
http://www.bubuko.com/infodetail-557740.html 一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。实现时,有两种不同的方式:转载 2016-03-15 20:35:55 · 4677 阅读 · 0 评论 -
高斯混合模型--GMM
http://blog.sina.com.cn/s/blog_54d460e40101ec00.html 高斯混合模型--GMM(Gaussian Mixture Model) 统计学习的模型有两种,一种是概率模型,一种是非概率模型。 所谓概率模型,是指训练模型的形式是P(Y|X)。输入是X,输出是Y,训练后模型得到的输出不是一个具体的值,而是一系列的概率值(对应于转载 2016-03-15 22:13:56 · 583 阅读 · 0 评论 -
Latent dirichlet allocation note
http://blog.csdn.net/wangran51/article/details/7408399 LDA是给文本建模的一种方法,它属于生成模型。生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由N个主题组成文章。通过对文本的建模,我们可以对文本进行主题分类,判断相似度等。在90年代提出的LSA中,通过对向量空间进行降维,获得文本的潜在语义空间。在LDA中则是通转载 2016-03-15 23:26:40 · 321 阅读 · 0 评论 -
交替最小二乘ALS
http://www.cnblogs.com/hxsyl/p/5032691.html ALS是alternating least squares的缩写 , 意为交替最小二乘法;而ALS-WR是alternating-least-squares with weighted-λ -regularization的缩写,意为加权正则化交替最小二乘法。该方法常用于基于矩阵分解的推荐系统中。例如转载 2016-03-16 00:22:32 · 5278 阅读 · 0 评论 -
机器学习之正则化(Regularization)
http://doc.okbase.net/jianxinzhou/archive/111322.html 1. The Problem of Overfitting1还是来看预测房价的这个例子,我们先对该数据做线性回归,也就是左边第一张图。如果这么做,我们可以获得拟合数据的这样一条直线,但是,实际上这并不是一个很好的模型。我们看看这些数据,很转载 2016-03-17 16:18:31 · 974 阅读 · 0 评论 -
支持向量机
http://baike.so.com/doc/6186041-6399292.html 支持向量机(Support Vector Machine,SVM)是Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。在机器学习中,支持向量机(SVM,转载 2016-03-17 18:38:47 · 1312 阅读 · 0 评论 -
MLlib - Clustering
https://spark.apache.org/docs/1.2.0/mllib-clustering.html ClusteringExamplesStreaming clusteringExamplesClusteringClustering is an unsupervised learning problem whereby we aim to转载 2016-03-10 08:21:09 · 521 阅读 · 0 评论 -
最小二乘法
http://baike.baidu.com/link?url=0hoWt5wPLOZv-gc15xMj1JBHUJNSSdTje4tFAS8kroXPOa4kONxjouwLAhPNOiBkyMQ-VhXw_cnkTptfpVz9Qa 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,转载 2016-03-11 20:10:30 · 2079 阅读 · 0 评论 -
四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps
http://www.36dsj.com/archives/26723 引言机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表达形式。 y是数据点映射后的低维向量表达,通常y的维度小于x的维度(当然提高维度也是可以的)。f可能是显式的或隐式的、线性的或非转载 2016-03-12 19:21:58 · 5030 阅读 · 1 评论 -
奇异值分解(SVD)的之低秩近似和特征降维
http://www.linuxidc.com/Linux/2014-06/103495.htm 我们在这一篇《模式识别、推荐系统中常用的两种矩阵分解-----奇异值分解和非负矩阵分解 》中详细介绍了矩阵奇异值分解的数学证明,我们沿用这一篇的博文的符号,继续讨论这一章的内容。矩阵的奇异值分解定理:设矩阵,秩为,,则该矩阵可以分解为:也可以表示为:。其中:为转载 2016-03-12 19:54:03 · 12202 阅读 · 0 评论 -
奇异值
奇异值 编辑本词条缺少名片图,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧!设A为m*n阶矩阵,A*·A的n个特征值的非负平方根叫作A的奇异值。记为σi(A)中文名奇异值表达式λi(A*·A)应用学科线性代数适用领域范围线性代数和矩阵论适用领域范围矩阵论目录1 领域2转载 2016-03-12 20:01:44 · 610 阅读 · 0 评论 -
GMM, Gaussian Mixture Model, 高斯混合模型
http://blog.csdn.net/manji_lee/article/details/41335307 聚类的方法有很多种,k-means要数最简单的一种聚类方法了,其大致思想就是把数据分为多个堆,每个堆就是一类。每个堆都有一个聚类中心(学习的结果就是获得这k个聚类中心),这个中心就是这个类中所有数据的均值,而这个堆中所有的点到该类的聚类中心都小于到其他类的聚类中心(分类的过程就转载 2016-03-14 15:25:30 · 564 阅读 · 0 评论 -
word2vector学习笔记(一)
http://blog.csdn.net/lingerlanlan/article/details/38048335 word2vector学习笔记(一) 最近研究了一下google的开源项目word2vector,http://code.google.com/p/word2vec/。其实这玩意算是神经网络在文本挖掘的一项成功应用。本文是看了论文《Distribut转载 2016-06-11 17:23:15 · 2026 阅读 · 0 评论