spark
岸芷汀兰whu
热爱生活、热爱技术
展开
-
在pyspark上配置ipython notebook
1.为Spark创建一个iPython notebook配置xcheng@Admins-MacBook-Pro-24:~/Spark/pyspark $ipython profile create spark[ProfileCreate] Generating default config file: u'/Users/xcheng/.ipython/profile_spark/ipython_c原创 2016-04-23 11:56:39 · 1634 阅读 · 0 评论 -
SparkMLlib之一Data Types
MLlib支持单机局部向量和局部矩阵,也支持基于RDD的分布式矩阵, MLlib中的labeled point代表监督学习的训练样本local vectorMLlib支持两种local vector :dense和sparse. dense比较简单例如:[1.0, 0.0, 3.0]代表向量(1.0, 0.0, 3.0) 如果用sparse格式则为:(3, [0,2],[1.0, 3.0])原创 2016-01-12 19:00:44 · 748 阅读 · 0 评论 -
零售户聚类改善
增加了特征标准化程序package class6import org.apache.spark.mllib.clustering.{KMeansModel, KMeans}import org.apache.spark.mllib.feature.StandardScalerimport org.apache.spark.mllib.linalg.Vectorsimport org.apach原创 2016-01-24 21:44:08 · 652 阅读 · 0 评论 -
SparkMLlib之二Basic Stastics
Summary statisticsWe provide column summary statistics for RDD[Vector] through the function colStats available in Statistics.import org.apache.spark.mllib.linalg.Vectorimport org.apache.spark.mllib.st原创 2016-01-12 19:28:50 · 824 阅读 · 0 评论 -
SparkStreaming实战
实例1 读取文件1 演示说明在该实例中 Spark Streaming 将监控某目录中的文件,获取在间隔时间段内变化的数据, 然后通过 Spark Streaming 计算出改时间段内单词统计数。2 演示代码import org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}原创 2016-01-04 17:23:35 · 709 阅读 · 0 评论 -
Spark 综合应用
本节模拟几个综合应用场景SQL On Spark:使用 sqlContext 查询年纪大于等于 10 岁的人名Hive On Spark:使用了 hiveContext 计算每年销售额店铺分类,根据销售额对店铺分类,使用 sparkSQL 和 MLLib 聚类算法PageRank,计算最有价值的网页,使用 sparkSQL 和 GraphX 的 PageRank 算法 以下实验采用 Int原创 2016-01-04 11:55:49 · 616 阅读 · 0 评论 -
hiveContext演示
使用 hiveContext 之前首先要确认以下两点:1 使用的 Spark 是支持 hive 2 Hive 的配置文件 hive-site.xml 已经存在 conf 目录中 前者可以查看 lib 目录下是否存在以 datanucleus 开头的 3 个 JAR 来确定,后者注意是否在 hive-site.xml 里配置了 uris 来访问 Hive Metastore。1. 启动 hive原创 2016-01-04 11:32:15 · 12023 阅读 · 0 评论 -
SparkR
简介SparkR是一个提供从R中使用Spark的轻量级前端的R包。在Spark1.6以后,SparkR提供了分布式数据框,它支持selection,filtering,aggregation等操作。也支持使用MLlib分布式机器学习。SparkR数据框类似于R中的数据框,数据源有结构化数据文件,Hive表,外部数据库或者本地R数据框。Starting up:SparkContext,SQLConte翻译 2016-01-17 16:11:25 · 1468 阅读 · 0 评论 -
SparkMLlib之六:Clustering
Spark支持下面的模型K-meansGaussian mixturePower iteration clustering(PIC)Latent Dirichlet allocation(LDA)Bisecting k-meansStreaming k-meansK-meansk-means是最常用的已知聚类数的聚类算法,spark.mllib实现了Kmeans的变体k-means++原创 2016-01-16 14:44:20 · 2798 阅读 · 0 评论 -
Spark canopy算法
canopy算法 概念与传统的聚类算法(比如K-means)不同,Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数),因此具有很大的实际应用价值。与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,因此可以使用Canopy聚类先对数据进行“粗”聚类,得到k值后再使用K-means进行进一步“细”聚类。这种Canopy+K-means的混合聚类方式分为...原创 2016-01-16 16:27:44 · 2730 阅读 · 0 评论 -
鸟窝
sparksql摇摆少年梦 懂得博客 简单之美 micky yirenboy spark技术内幕原创 2015-09-17 12:07:55 · 434 阅读 · 0 评论 -
sparksql性能测试
spark耗时对数据大小并不是线性增长,而是随数据大小缓慢增长。 数据相差一个数量级,运行时间也只差几秒,下面是多次运行下面的程序的耗时情况:分别测试100,1000,10000 但是数据超过一定大小,并行化及注册为表都没问题,而执行sql查询则出现问题:Exception in thread "main" org.apache.spark.SparkException: Job abort原创 2015-09-24 11:06:00 · 2472 阅读 · 0 评论 -
intellijidea连接spark集群
今天尝试在intellijidea里连接spark集群,报错:java.lang.ClassNotFoundException: org.apache.spark.examples.SparkPi$$anonfun原来是没有添加jar包,首先要把项目打成jar包,然后在sparkcontext里添加jar包/* * Licensed to the Apache Software Founda原创 2015-09-24 09:30:27 · 10870 阅读 · 0 评论 -
sparkCookbook4-SparkSQL
catalyst优化器由两个主要目标:方便的添加新的优化技术允许外部开发者扩展优化器 sparkSQL在四个阶段使用catalyst转换框架1, Analyzing a logical plan to resolve references 2,Logical plan optimization 3, Physical planning 4,Code generation to compi原创 2015-09-02 16:35:30 · 565 阅读 · 0 评论 -
sparksql性能调优
性能优化参数 代码实例import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.sql.api.java.JavaSQLContext;import org.apache.spark.sql原创 2015-09-16 00:16:16 · 6696 阅读 · 0 评论 -
SparkMLlib之三:协同过滤
协同过滤用于推荐系统,目的在于填补用户-物品同现矩阵,spark目前支持基于模型的协同过滤,用户和产品由一个小的可以用于预测缺失值的潜在因子集描述,spark.mllib采用交叉最小二乘算法学习潜在因子,它有以下参数:numBlocks 用于并行计算的block数rank模型潜在因子数iterations迭代次数lambda在ALS中的正则参数implicitPrefs specifi原创 2016-01-12 19:48:50 · 858 阅读 · 0 评论 -
SparkMLlib之五:优化
数学描述梯度下降梯度下降和随即梯度下降这样的一阶优化问题非常适合大规模分布式运算,计算梯度时需要对所有参数求导,但是当凸函数不是对所有参数都可导时,次梯度sub-gradient就是梯度的推广,计算它需要遍历整个数据集。随机梯度下降随机次梯度是一个随机选择的向量,使得我们得到原目标函数真正次梯度的期望。原创 2016-01-13 20:05:24 · 691 阅读 · 0 评论 -
SparkMLlib之四:Linear Methods
数学公式很多标准的机器学系算法都可以表示为一个凸优化问题,即找到使得凸函数f最小的参数向量。 正则部分控制模型复杂度,loss函数L表示模型在训练集上的误差,通常是w的凸函数。参数labmda用来权衡两者。loss functionsspark支持的loss函数 正则化 由于平滑性,L2正则比L1正则要简单,但是L1正则有助于改善权重稀疏而得到更小且更易解释的模型,L1有助于特征选择。不建原创 2016-01-13 19:45:20 · 782 阅读 · 0 评论 -
对三个超市销量、品牌数、均价聚类
K的选择kmeans++ k=2Within Set Sum of Squared Errors=118.06743855554647kmeans++ k=3Within Set Sum of Squared Errors=73.04285624370425kmeans++ k=4Within Set Sum of Squared Errors=56.56478515239625kmeans+原创 2016-04-23 10:11:52 · 1031 阅读 · 0 评论 -
烟草零售聚类1、KM_classic
package tobaccoimport org.apache.spark.mllib.clustering.{KMeans, KMeansModel}import org.apache.spark.mllib.feature.StandardScalerimport org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.r原创 2016-04-19 15:43:38 · 1422 阅读 · 1 评论 -
零售户logistics回归分类
package tobaccoimport data.copy._import org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionWithSGD}import org.apache.spark.mllib.clustering.KMeansimport org.apache原创 2016-04-14 15:34:51 · 916 阅读 · 0 评论 -
零售户决策树分类
package tobaccoimport data.copy._import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.evaluation.BinaryClassificationMetricsimport org.apache.spark.mllib.feature.StandardScal原创 2016-04-14 14:07:45 · 1438 阅读 · 0 评论 -
单机spark绑定端口
在IDE里配置SPARK_MASTER_IP=127.0.0.1SPARK_LOCAL_IP=127.0.0.1原创 2016-04-09 11:57:11 · 1147 阅读 · 0 评论 -
Spark读取csv数据
项目地址一、spark-shell方式$SPARK_HOME/bin/spark-shell --packages com.databricks:spark-csv_2.10:1.4.0IDE方式方式一逗号分隔法方式二参考原创 2016-03-14 12:02:38 · 6066 阅读 · 0 评论 -
Integrating Apache Spark with PyCharm
参考 在/Applications/PyCharm CE.app/Contents/bin 下写了一个pycharm.shexport PYTHONPATH=/usr/local/share/spark1626/python/:/usr/local/share/spark1626/python/lib/py4j-0.9-src.zipexport SPARK_HOME=/usr/local/s原创 2016-04-01 13:41:39 · 627 阅读 · 0 评论 -
mac下安装配置Spark
安装scala参考陋室 1. 解压scala到/usr/local/share/scala下 2. 配置scala环境变量 sudo su vi etc/profile 添加 export PATH=”$PATH:/usr/local/share/scala/bin”配置Spark参考原创 2016-03-08 17:54:48 · 3501 阅读 · 0 评论 -
pyspark初探(一)LearningSpark
启动pysparkIPYTHON=1 pysparkIPYTHON_OPTS="notebook" pyspark(set IPYTHON=1 pyspark for windows)执行python脚本spark-submit my_script.py初始化sparkcontextfrom pyspark import SparkConf,SparkContextconf = Spark原创 2016-03-15 17:01:51 · 4337 阅读 · 0 评论 -
SparkML实战之四:回归
package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.regression.LinearRegressionModelimport org.apache.spa原创 2016-01-14 10:05:22 · 1447 阅读 · 0 评论 -
SparkML实战之五:SVM
package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}import org.apache.spark.mllib.evaluation.BinaryClassificationMetricsi原创 2016-01-14 10:11:37 · 2184 阅读 · 0 评论 -
SparkML实战之三:Logistic回归
package MLlibimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionModel}import org.apache原创 2016-01-14 10:01:12 · 2142 阅读 · 0 评论 -
SparkML实战之二:Kmeans
package class8import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectors/**原创 2016-01-14 09:59:16 · 1641 阅读 · 0 评论 -
SparkML实战之一:线性回归
package class8import org.apache.log4j.{Logger, Level}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LinearRegr原创 2016-01-14 09:56:47 · 2772 阅读 · 0 评论 -
sparkcookbook-GettingStarted with ML
创建向量$ spark-shellimport org.apache.spark.mllib.linalg.{Vectors,Vector}val dvPerson = Vectors.dense(160.0,69.0,24.0)val svPerson = Vectors.sparse(3,Array(0,1,2),Array(160.0,69.0,24.0)密集向量方法定义:def de原创 2015-09-06 14:11:35 · 804 阅读 · 0 评论 -
提交Spark第一个程序
第一个程序是计算session 日志查询排行榜SougouQApackage week2/** * Created by root on 15-8-21. */import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.SparkContext._object SougouQA{ def main(arg原创 2015-08-21 16:50:58 · 657 阅读 · 0 评论 -
spark官方文档翻译收藏
Spark SQL中的DataFrame 编程指南中文书原创 2015-08-28 09:35:17 · 601 阅读 · 0 评论 -
Spark SQL and DataFrame Guide
spark SQL和数据框指南翻译 2015-08-27 09:55:14 · 671 阅读 · 0 评论 -
spark1.4安装
spark1.4安装原创 2015-08-26 21:58:41 · 549 阅读 · 0 评论 -
sparkcookbook阅读笔记
sparkcookbook原创 2015-08-27 11:01:40 · 818 阅读 · 0 评论 -
spark SQL CLI运行(spark1.4)
sparkSQL原创 2015-08-26 21:46:13 · 335 阅读 · 0 评论 -
用maven编译spark1.4
编译spark1.4.1原创 2015-08-27 11:54:08 · 723 阅读 · 0 评论