大数据
岸芷汀兰whu
热爱生活、热爱技术
展开
-
mac压缩为zip
最通俗的用法zip -q -r -e -m -o [yourName].zip someThing-q 表示不显示压缩进度状态-r 表示子目录子文件全部压缩为zip //这部比较重要,不然的话只有something这个文件夹被压缩,里面的没有被压缩进去-e 表示你的压缩文件需要加密,终端会提示你输入密码的// 还有种加密方法,这种是直接在命令行里做的,比如zip -r -P Password01!转载 2016-04-25 17:22:42 · 868 阅读 · 0 评论 -
Spark canopy算法
canopy算法 概念与传统的聚类算法(比如K-means)不同,Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数),因此具有很大的实际应用价值。与其他聚类算法相比,Canopy聚类虽然精度较低,但其在速度上有很大优势,因此可以使用Canopy聚类先对数据进行“粗”聚类,得到k值后再使用K-means进行进一步“细”聚类。这种Canopy+K-means的混合聚类方式分为...原创 2016-01-16 16:27:44 · 2735 阅读 · 0 评论 -
鸟窝
sparksql摇摆少年梦 懂得博客 简单之美 micky yirenboy spark技术内幕原创 2015-09-17 12:07:55 · 436 阅读 · 0 评论 -
经典mysql语句
经典SQL语句大全一、基础1、说明:创建数据库CREATE DATABASE database-name 2、说明:删除数据库drop database dbname3、说明:备份sql server--- 创建 备份数据的 deviceUSE masterEXEC sp_addumpdevice 'disk', 'testBack', 'c:\mssq转载 2015-08-22 10:31:26 · 366 阅读 · 0 评论 -
kafka-storm-stater研究
集成kafka,storm,spark原创 2015-08-21 12:41:22 · 1038 阅读 · 0 评论 -
提交Spark第一个程序
第一个程序是计算session 日志查询排行榜SougouQApackage week2/** * Created by root on 15-8-21. */import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.SparkContext._object SougouQA{ def main(arg原创 2015-08-21 16:50:58 · 660 阅读 · 0 评论 -
整合spark和hive
参考1 参考2 事先启动了hive-metastore服务 启动了hadoop 启动了spark集群 接着启动spark-shellbin/spark-shell --master spark://moon:7077 --driver-class-path /usr/local/hive/lib/mysql-connector-java-5.1.18-bin.jar使用HiveConte原创 2015-08-29 15:28:10 · 2330 阅读 · 0 评论 -
scala变性
标准动物库有一个函数满足了你的需求,但它的参数是Animal。在大多数情况下,如果你说“我需要一个,我有一个的子类”是可以的。但是,在函数参数这里是逆变的。如果你需要一个接受参数类型Bird的函数变量,但却将这个变量指向了接受参数类型为Chicken的函数,那么给它传入一个Duck时就会出错。然而,如果将该变量指向一个接受参数类型为Animal的函数就不会有这种问题:scala> class Ani原创 2015-09-01 15:37:05 · 410 阅读 · 0 评论 -
配置文件
hadoop用户配置文件~/.bashrcexport JAVA_HOME=/usr/local/jdk1.7export HADOOP_HOME=/usr/local/hadoopexport HADOOP_COMMON_HOME=/usr/local/hadoopexport HADOOP_HDFS_HOME=$HADOOP_COMMON_HOMEexport HADOOP_MAPRED原创 2015-08-19 14:55:22 · 497 阅读 · 0 评论 -
Run a Simple Apache Spark App in CDH 5
Run a Simple Apache Spark App in CDH 5 1,下载解压后进入根目录打包mvn package2,To run from a gateway node in a CDH5 cluster:spark-submit --class com.cloudera.sparkwordcount.SparkWordCount --master local \ target原创 2015-09-01 12:42:56 · 402 阅读 · 0 评论 -
spark资料汇总
博客,spark,资料转载 2015-08-05 18:55:09 · 384 阅读 · 0 评论 -
收藏的一些项目
traffic-reduce spark时间序列原创 2015-09-01 12:44:29 · 374 阅读 · 0 评论 -
LearningStorm第8章(2)
运行KafkaLogProducer1,启动zookeeperhadoop@moon:/usr/local/cloud/zookeeper-3.4.6$ ./bin/zkServer.sh start &[2] 11035hadoop@moon:/usr/local/cloud/zookeeper-3.4.6$ JMX enabled by defaultUsing config: /usr/原创 2015-08-27 17:08:46 · 505 阅读 · 0 评论 -
SparkMLlib之六:Clustering
Spark支持下面的模型K-meansGaussian mixturePower iteration clustering(PIC)Latent Dirichlet allocation(LDA)Bisecting k-meansStreaming k-meansK-meansk-means是最常用的已知聚类数的聚类算法,spark.mllib实现了Kmeans的变体k-means++原创 2016-01-16 14:44:20 · 2815 阅读 · 0 评论 -
Spark 综合应用
本节模拟几个综合应用场景SQL On Spark:使用 sqlContext 查询年纪大于等于 10 岁的人名Hive On Spark:使用了 hiveContext 计算每年销售额店铺分类,根据销售额对店铺分类,使用 sparkSQL 和 MLLib 聚类算法PageRank,计算最有价值的网页,使用 sparkSQL 和 GraphX 的 PageRank 算法 以下实验采用 Int原创 2016-01-04 11:55:49 · 623 阅读 · 0 评论 -
论坛日志处理项目总结
项目描述通过对黑马技术论坛的apache common日志进行分析, 计算论坛关键指标,供运营者决策。数据情况每行记录有5部分组成: 1.访问ip 2.访问时间 3.访问资源 4.访问状态 5.本次流量more access_2013_05_30.log27.19.74.143 - - [30/May/2013:17:38:20 +0800] “GET /static/image/com原创 2015-12-19 22:58:52 · 1682 阅读 · 1 评论 -
mac下安装配置Spark
安装scala参考陋室 1. 解压scala到/usr/local/share/scala下 2. 配置scala环境变量 sudo su vi etc/profile 添加 export PATH=”$PATH:/usr/local/share/scala/bin”配置Spark参考原创 2016-03-08 17:54:48 · 3508 阅读 · 0 评论 -
SparkML实战之四:回归
package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.regression.LinearRegressionModelimport org.apache.spa原创 2016-01-14 10:05:22 · 1452 阅读 · 0 评论 -
SparkML实战之五:SVM
package MLlibimport org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.classification.{SVMModel, SVMWithSGD}import org.apache.spark.mllib.evaluation.BinaryClassificationMetricsi原创 2016-01-14 10:11:37 · 2187 阅读 · 0 评论 -
SparkML实战之三:Logistic回归
package MLlibimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.mllib.classification.{LogisticRegressionWithLBFGS, LogisticRegressionModel}import org.apache原创 2016-01-14 10:01:12 · 2149 阅读 · 0 评论 -
SparkML实战之二:Kmeans
package class8import org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.clustering.KMeansimport org.apache.spark.mllib.linalg.Vectors/**原创 2016-01-14 09:59:16 · 1645 阅读 · 0 评论 -
SparkML实战之一:线性回归
package class8import org.apache.log4j.{Logger, Level}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LinearRegr原创 2016-01-14 09:56:47 · 2782 阅读 · 0 评论 -
SparkMLlib之四:Linear Methods
数学公式很多标准的机器学系算法都可以表示为一个凸优化问题,即找到使得凸函数f最小的参数向量。 正则部分控制模型复杂度,loss函数L表示模型在训练集上的误差,通常是w的凸函数。参数labmda用来权衡两者。loss functionsspark支持的loss函数 正则化 由于平滑性,L2正则比L1正则要简单,但是L1正则有助于改善权重稀疏而得到更小且更易解释的模型,L1有助于特征选择。不建原创 2016-01-13 19:45:20 · 788 阅读 · 0 评论 -
SparkMLlib之五:优化
数学描述梯度下降梯度下降和随即梯度下降这样的一阶优化问题非常适合大规模分布式运算,计算梯度时需要对所有参数求导,但是当凸函数不是对所有参数都可导时,次梯度sub-gradient就是梯度的推广,计算它需要遍历整个数据集。随机梯度下降随机次梯度是一个随机选择的向量,使得我们得到原目标函数真正次梯度的期望。原创 2016-01-13 20:05:24 · 695 阅读 · 0 评论 -
SparkMLlib之三:协同过滤
协同过滤用于推荐系统,目的在于填补用户-物品同现矩阵,spark目前支持基于模型的协同过滤,用户和产品由一个小的可以用于预测缺失值的潜在因子集描述,spark.mllib采用交叉最小二乘算法学习潜在因子,它有以下参数:numBlocks 用于并行计算的block数rank模型潜在因子数iterations迭代次数lambda在ALS中的正则参数implicitPrefs specifi原创 2016-01-12 19:48:50 · 864 阅读 · 0 评论 -
SparkMLlib之一Data Types
MLlib支持单机局部向量和局部矩阵,也支持基于RDD的分布式矩阵, MLlib中的labeled point代表监督学习的训练样本local vectorMLlib支持两种local vector :dense和sparse. dense比较简单例如:[1.0, 0.0, 3.0]代表向量(1.0, 0.0, 3.0) 如果用sparse格式则为:(3, [0,2],[1.0, 3.0])原创 2016-01-12 19:00:44 · 752 阅读 · 0 评论 -
贵州烟草大数据之一:零售户聚类
1 思路考虑零售户的总销售量,总库存量两个特征,用这两个特征对零售户进行聚类,找出哪些零售户供不应求、哪些零售户供过于求。合理安排配货。2 数据存准备在hive中创建两张表,之前已经导入了销售数据,现在创建库存数据hive -e " create table hhstore_data( LICENSE_CODE BIGINT, ITEM_CODE INT, QTY_ORD DECIMA原创 2016-01-18 22:25:26 · 2820 阅读 · 5 评论 -
SparkMLlib之二Basic Stastics
Summary statisticsWe provide column summary statistics for RDD[Vector] through the function colStats available in Statistics.import org.apache.spark.mllib.linalg.Vectorimport org.apache.spark.mllib.st原创 2016-01-12 19:28:50 · 829 阅读 · 0 评论 -
Hive编程之Hive中的数据库
Hive中的数据库概念本质上仅仅是表的一个目录或者命名空间。 在所有数据库相关命令中,SCHEMA==TABLE; 列举出所有以字母h开头的数据库名:hive> SHOW DATABASES LIKE 'h.*';一个数据库有一个目录, 表以这个目录的字目录形式存储。 数据库所在目录位于hive.metastore.warehose.dir所指定的顶层目录之后,即/user/hive/ware原创 2015-09-01 09:25:16 · 474 阅读 · 0 评论 -
在IDEA下创建新项目时出现Error:Cannot determine Java VM executable in selected JDK错误
如果当前是欢迎界面Configure -> Project defaults -> Project structure,如果已经打开一个项目,选择file->close project.然后同样进入Project structure。点击左侧导航栏中Project,中间Project SDK下有一个new按钮点击后添加本地的JDK,如图所示,确认以后就解决了转自:htt转载 2015-08-04 09:09:31 · 1115 阅读 · 0 评论 -
learningspark7
用sbt构建的一个scala语言spark应用 Example 7-7. build.sbt file for a Spark application built with sbt 0.13import AssemblyKeys._name := "Simple Project"version := "1.0"organization := "com.databricks"scalaVer翻译 2015-08-31 11:51:51 · 390 阅读 · 0 评论 -
hive 安装及使用
hive安装及使用原创 2015-08-24 08:58:56 · 889 阅读 · 0 评论 -
hive on spark demo
hive on spark转载 2015-08-26 10:39:58 · 601 阅读 · 0 评论 -
hive编程指南笔记--2基础操作
hive编程指南原创 2015-08-26 15:07:19 · 483 阅读 · 0 评论 -
sparkSQL实战之二:编程指定模式
sparkSQL实战原创 2015-08-26 17:28:48 · 640 阅读 · 0 评论 -
Setting up a Storm Cluster
storm集群的搭建及远程提交拓扑原创 2015-08-25 15:26:30 · 405 阅读 · 0 评论 -
Chap4:Storm集成Kafka
本文讨论: • Kafka概览 • Setting up a single node and multinode Kafka cluster • Producing data into a Kafka partition • Using KafkaSpout in a Storm topology to consume messages from Kafka原创 2015-08-25 16:17:30 · 770 阅读 · 0 评论 -
storm-example笔记
storm-example原创 2015-08-25 15:02:42 · 1691 阅读 · 0 评论 -
Spark Streaming编程指南
Spark Streaming属于Spark的核心api,它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP Socket的数据源,使用简单的api函数比如 map, reduce, join, window等操作,还可以直接使用内置的机器学习算法、图算法包来处理数据。 它的工作流程像下面的图所示一样,接受到实时数据后,给原创 2015-08-25 08:57:13 · 552 阅读 · 0 评论 -
spark读取kafka nginx网站日志消息 并写入HDFS中
spark,kafka转载 2015-08-25 09:30:32 · 1325 阅读 · 0 评论