各种框架学习
文章平均质量分 91
各种框架
Q博士
原先的技术宅,现在的生活宅,心态决定年龄
展开
-
Hbase rowkey hash化
这几天把流式计算系统跑起来了,跑了一天后,负责HBase的同学跟我说我存储的方式有问题,最后问题追踪到了hbase的rowkey问题上,也是很神奇问题存储过来的文件都是几十KB一个文件region split太多,一天后region增加到46个找问题因为第一次接触spark,第一次接触scala,反正从听说流式计算开始到现在也才一个月,新手一个。听到这个问题后也是很懵逼,反复跟Hbase的o原创 2016-09-30 14:43:24 · 7306 阅读 · 7 评论 -
Spark成长之路(9)-Word2Vec
word2vec简介将文本映射到K维空间的向量值。代码object Word2VecExample { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().getOrCreate() spark.sparkContext.setLogLevel("WARN") // Inpu原创 2017-07-25 15:56:15 · 785 阅读 · 0 评论 -
spark环境搭建(独立集群模式)
参考文章 Spark Standalone Mode 单机版Spark在Mac上简装笔记[0] 大数据利器:Spark的单机部署与测试笔记spark 2.0.0下载最新版本2.0.0解压后进入目录解释standalone模式为Master-Worker模式,在本地模拟集群模式启动Master> sbin/start-master.sh打开http://localhost:8080原创 2016-09-01 22:49:11 · 3932 阅读 · 0 评论 -
kafka本地测试环境搭建
Kafka(二):环境搭建&测试需求软件步骤本地zk启动启动broker节点创建topic如果已经存在就无需创建查看当前topic列表启动生产者启动消费者演示模拟kafka发送日志信息序列化的格式代码演示发送需求由于共有云的kafka集群只对测试机(阡陌机器等)开放,本地是无法访问的,所以为了开发方便搭建一套kafka的测试环境是有必要的软件kafka_2.11-0.原创 2017-03-20 11:29:03 · 4897 阅读 · 0 评论 -
Spark中RDD操作
Transformations(转换) Transformation 说明 map(func) 根据传入的函数处理原有的RDD对象中每一个元素,每一个新元素处理完成后返回一个对象,这些新对象组装得到一个新的RDD,新的RDD和旧的RDD元素都是一一对应的 filter(func) 根据传入的函数来过滤RDD中每一个元素,通过过滤条件的的元素组成一个新的RDD flatMap原创 2016-10-09 20:38:30 · 7139 阅读 · 0 评论 -
Spark成长之路(13)-DataSet与DataFrame
Datasets and DataFrames前言源码DataFrameDataset创建dataset读取json串RDD转换为Dataset总结DataFrame前言spark1.6中引入了DataSet和DataFrame的概念,然后Spark SQL的API也是基于这两个概念的,到2.2推出的稳定版本的Structured Streaming也是依靠Spark SQL的AP原创 2017-08-25 13:45:02 · 1066 阅读 · 0 评论 -
Spark成长之路(6)-Correlation
spark mlspark准备彻底支持DataFrame特性,所以重新了ml的api,原先的以RDD为基础的api都放在了mllib中,但是都是维护阶段,推荐使用ml下的api。相关性有2种相关性,皮尔森积矩相关系数和斯皮尔曼等级相关,具体原理请自行搜索,主要是判断两个向量的关联性。样例import org.apache.spark.ml.linalg.{Matrix, Vectors}impo原创 2017-07-21 11:36:59 · 2239 阅读 · 1 评论 -
Spark成长之路(1)-搭建环境
参考文章: 搭建Spark源码研读和代码调试的开发环境 Apache Spark 源码阅读环境 工具 版本 scala 2.12.2 java 1.8.0_92 sbt 0.13.13 maven 3.3.9 IDEA CE 2017.1.4 macOS 10.12.5git clonegit clone https://gith原创 2017-06-22 12:45:18 · 2043 阅读 · 1 评论 -
Spark on yarn搭建实践
参考文章 Spark on YARN两种运行模式介绍 Yarn源代码分析之旅—总体架构—概述与总体架构原创 2016-09-08 11:38:54 · 429 阅读 · 0 评论 -
Spark成长之路(8)-TFIDF
TDIDF简介源码输出简介文本特征提取算法,给某个文章归档某个类别时特别有用。源码object TfIdfExample { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().getOrCreate() spark.sparkContext.setLogLevel("WARN"原创 2017-07-25 15:26:23 · 769 阅读 · 0 评论 -
spark-streaming 共享变量
有这样一个需求,我需要在每次的Job中,都需要广播一次,广播的数据是当前时间时,redis中已经存在的logid。原创 2017-04-21 13:54:24 · 3076 阅读 · 1 评论 -
HBase安装(伪分布式)
参考文章 Hadoop2.7.2之集群搭建(单机) Hbae安装 Hbase伪分布版本hadoop 2.7.3hbase 1.2.3下载完解压缩hadoop配置 core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://local原创 2016-09-24 01:30:20 · 646 阅读 · 0 评论 -
spark webui的展示
在standalone模式下,运行一个应用,我们来操作webui查看一些信息主页主页展示了如下信息概览工作中的slave运行中的应用已经完成的应用slave信息点击Workers列表中Worker Id任一条数据应用信息点击Running Applications列表中Application ID进入应用信息运行情况点击Running Applications列表中Name进入,完全新的原创 2016-09-02 23:44:41 · 4051 阅读 · 0 评论 -
Hbase伪分布式
参考文章 Hadoop2.7.2之集群搭建(单机) Hbae安装 Hbase伪分布版本hadoop配置hadoop 启动hbase 配置hbase启动版本hadoop 2.7.3hbase 1.2.3下载完解压缩hadoop配置 core-site.xml<configuration> <property> <name>fs.defaul原创 2017-03-20 11:27:28 · 570 阅读 · 0 评论 -
kafka的OffsetOutOfRangeException
参考文章kafka.common.OffsetOutOfRangeException 问题处理 这几天折腾spark的kafka的低阶API createDirectStream的一些总结。问题描述国庆前启动spark streaming任务去消费了kafka,后来由于其他原因停止了,放假回来后,重启spark任务后,报kafka.common.OffsetOutOfRangeExcepti原创 2016-10-14 15:04:11 · 11220 阅读 · 0 评论 -
Spark成长之路(5)-消息队列
参考文章:Spark分布式消息发送流程 监听器模式 volatile因为之前被这个消息队列坑过(stage夯住原因分析),所以现在研究源码,先从它下手,解答一下我这么久的疑惑。继承关系ListenerBus->SparkListenerBus->LiveListenerBus。原始基类为ListenerBus。运用的设计模式为监听器模式。ListenerBusspark包中私有特质,继原创 2017-07-07 11:16:02 · 2043 阅读 · 0 评论 -
编译Hbase-thrift-php客户端
问题hbase没有提供PHP客户端来访问hbase,只能通过thrift的方式来连接hbase,但是坑爹的是这个方法也得自己去编译,环境的准备也是很繁琐的,记录下环境搭建主要是安装thrift,但是thrift依赖很多其他库,所以你要花费一段时间去搞定环境安装,以官方安装教程为准OS X Setup安装完成后,确保thrift命令是可用的。原创 2016-12-19 13:50:33 · 1985 阅读 · 0 评论 -
[streamingpro]开发环境搭建
streamingpro环境准备csdn_commongit clone到本地,然后执行mvn install安装到本地仓库➜ csdn_common git:(master) mvn install[INFO] Building jar: /Users/doctorq/Documents/Developer/git-project/csdn_common/target/csdn-common原创 2016-10-20 20:59:03 · 3930 阅读 · 16 评论 -
Spark成长之路(10)-CountVectorizer
CountVectorizer简介用文档中单个单词出现的次数组成一个向量。代码object CountVectorizerExample { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().getOrCreate() val df = spark.createDataFrame原创 2017-07-25 16:06:08 · 934 阅读 · 0 评论 -
Spark成长之路(2)-RDD中分区依赖系统
参考文章: 深入理解Spark RDD抽象模型和编写RDD函数 RDD依赖 spark调度系列 偏函数简介依赖关系图依赖概念类窄依赖类OneToOneDependencyRangeDependencyPruneDependency宽依赖类图解ShuffleDependency简介RDD之间的依赖关系大致分为两类:窄依赖和宽依赖。 借用参考文章的解释:窄原创 2017-06-28 14:46:30 · 3027 阅读 · 3 评论 -
Spark成长之路(3)-再谈RDD的Transformations
参考文章 coalesce()方法和repartition()方法 TransformationsrepartitionAndSortWithinPartitions解释返回源码coalesce和repartition解释返回源码pipe解释返回源码cartesian解释返回源码cogroup解释源码join解释返回源码sortByKey原创 2017-06-30 16:54:07 · 1197 阅读 · 0 评论 -
Spark成长之路(12)-Gradient Descent
机器学习理论之一原创 2017-08-02 11:39:11 · 930 阅读 · 0 评论 -
Spark成长之路(7)-Hypothesis testing
Hypothesis testing样例import org.apache.spark.ml.linalg.{Vector, Vectors}import org.apache.spark.ml.stat.ChiSquareTestimport org.apache.spark.sql.SparkSessionobject HypothesisTestingExample { def mai原创 2017-07-21 11:55:28 · 963 阅读 · 0 评论 -
Spark成长之路(11)-ngram
ngram简介N-gram代码object NGramExample extends SparkObject { def main(args: Array[String]): Unit = { val wordDataFrame = spark.createDataFrame(Seq( (0, Array("Hi", "I", "heard", "about", "Spark原创 2017-07-25 17:24:19 · 1862 阅读 · 1 评论 -
spark-streaming stage夯住原因分析
现象任务执行中偶先stage停止不动但是我们点进去查看任务的时候发现,任务状态是SUCCESSED的查看日志发现有ERROR和WARN报出17/03/28 10:56:19 ERROR LiveListenerBus: Dropping SparkListenerEvent because no remaining room in event queue. This likely means one原创 2017-03-28 11:15:54 · 5362 阅读 · 5 评论 -
spark参数executor-cores引起的异常
测试阶段我用了单机的redis,然后我今天将executor-cores的值由1改为了2,然后提交到spark的时候报错报错信息Unexpected end of stream16/10/11 16:35:50 WARN TaskSetManager: Lost task 63.0 in stage 3.0 (TID 212, gzns-arch-spark04.gzns.iwm.name): r原创 2016-10-11 16:51:03 · 3885 阅读 · 0 评论 -
Spark成长之路(4)-分区器系统
Spark分区器HashPartitioner和RangePartitioner代码详解总览图原创 2017-07-04 13:00:44 · 882 阅读 · 0 评论 -
spark样例测试
spark on yarn计算平台已经搭建完成,下面来利用这个平台运行下官方的样例,样例全部在/home/work/spark目录下执行SparkPi ./bin/spark-submit –class org.apache.spark.examples.SparkPi –master yarn –deploy-mode cluster examples/jars/spark-examples原创 2017-03-20 11:36:32 · 4145 阅读 · 0 评论 -
spark streaming实例编写
运行第一个SparkStreaming程序(及过程中问题解决) Windows下IntelliJ IDEA中调试Spark Standalone sbt-assembly 发布 Scala 项目 使用IDEA开发及测试Spark的环境搭建及简单测试 基于spark运行scala程序(sbt和命令行方法) 主要是实践一下scala开发项目的流程创建项目创建一个sc原创 2016-09-02 18:31:46 · 2572 阅读 · 0 评论 -
spark_on_yarn环境搭建
集群模式机器软件版本公有zookeeper服务下载统一时间配置hosts防火墙配置免密登录安装hadoop273hadoop配置hadoop-envsh配置yarn-envsh配置slaves配置core-sitexml配置hdfs-sitexml配置mapred-sitexml配置yarn-sitexml配置分发到配置到slave启动dfsdfs启动前的进程原创 2017-03-20 11:32:45 · 1383 阅读 · 0 评论 -
ES-PHP向ES批量添加文档报No alive nodes found in your cluster
参考文章phpcurl 请求Chunked-Encoded data 遇到的一个问题问题描述为了提高保存数据到es消耗的时间,采取积攒到3000条文档的时候才保存到ES中,之前一直没有问题,昨天新上了几个log服务器后,经常会发现保存失败报如下错误:No alive nodes found in your cluster首先我要说这个错误真坑啊,以这个关键字搜索问题,花了两天也没解决,后来无意中翻原创 2016-12-14 12:31:40 · 13052 阅读 · 3 评论 -
spark-streaming数据量从1%提升到全量实战
架构背景spark参数优化提高executor-cores大小调整executor-memorynum-executors设置首次处理减压策略x消息队列bug规避PHP端限制处理Action1的处理速度从1提升到10高峰期非高峰期状况描述从10提升到50高峰非高峰期状况描述采用pipeline提升redis的qps50提升到全量非高峰期下午时段高峰期原创 2017-03-29 15:11:58 · 5652 阅读 · 0 评论 -
kafka安装(单机模式)
开发spark程序需要一套本地的kafka环境原创 2016-09-24 01:34:54 · 904 阅读 · 0 评论 -
流式计算框架调研
参考文章 流式大数据处理的三种框架:Storm,Spark和Samza Storm和Spark Streaming框架对比 基于Apache Samza,揭秘LinkedIn架构背后的技术 分布式追踪系统架构与设计三大主流框架Apache Storm,Twitter公司推出Apache Spark,UC Berkeley推出Apache Samza,Linkedin推原创 2017-03-20 11:38:55 · 1338 阅读 · 0 评论 -
react-native试玩(28)-弹出框API
AlertIOS react-native在线运行器方法static alert(title: string, message?: string, buttons?: Array<{ text: ?string; onPress?: ?Function; }>, type?: string):无输入弹出框static prompt(title: string, value?: strin原创 2015-09-08 14:45:58 · 6100 阅读 · 0 评论 -
react-native试玩(5)-小菊花控件
ActivityIndicatorIOSActivityIndicatorIOS小菊花控件,动态指示图标,一般在比较耗时的操作中使用,用来做用户友好性提示。属性 名称 类型 意义 默认 color String 小菊花的颜色 gray hidesWhenStopped bool 停止转动时是否隐藏 true animating bool 是原创 2015-09-01 16:06:13 · 4144 阅读 · 0 评论 -
react-native试玩(6)-日期选择控件
DatePickerIOSDatePickerIOS日期选择控件属性 名称 类型 意义 默认值 date Date 当前选择的日期基础 无默认值,必须显式设置 minimumDate Date 选择范围的最小值 无 maximumDate Date 选择范围的最大值 无 minuteInterval enum 分钟选择的间隔原创 2015-09-01 19:33:43 · 7254 阅读 · 0 评论 -
react-native试玩(14)-iOS中进度栏
ProgressViewIOS属性 名称 类型 意义 默认值 progress number(0~1) 进度的百分比 无 progressImage Image.propTypes.source 将图片对象作为进度条 无 progressTintColor string 进度条的颜色 无 progressViewStyle en原创 2015-09-07 23:12:53 · 1815 阅读 · 0 评论 -
react-native试玩(1)
今天把react native环境搭建完成,然后运行个小demo试试. 第一篇环境配置 & Hello World总结按照上面的学习文章,我基本完成,但是在配置过程中遇到2个问题,需要终结一下。已安装node由于我安装react-native之前已经安装过node,我们执行的话会报错,这个错误就是因为react-native使用的是io.js,这个时候我们需要安装io.js,而你必须删除no原创 2015-08-03 10:43:19 · 1832 阅读 · 0 评论 -
react-native试玩(23)-触摸高亮
TouchableHighlight属性 名称 类型 意义 默认值 activeOpacity number 当触摸时,包裹该控件的视图的透明度 无 onHideUnderlay function 底层隐藏后触发的函数 无 onShowUnderlay function 底层显示后触发的函数 无 underlayColor st原创 2015-09-08 02:00:34 · 2433 阅读 · 0 评论