- 博客(7)
- 问答 (5)
- 收藏
- 关注
原创 使用sparksql读取mysql中的数据
1.使用sparksql读取MySQL中的数据,读取整张表的时候,代码如下val conf=new SparkConf().setAppName("SparkSql running......................").setMaster("local")val sc=new SparkContext(conf)val sqlContext=new SQLContext(sc
2016-04-26 21:14:41 11369 1
原创 使用Spark分析日志,使用关联算法分析结果,保存到hdfs
object EsPfgTest { //时间间隔,单位为分钟. val grapTime=5 //将时间间隔转化为毫秒 val grapTimeToMill=(grapTime*60000).toString.toLong //一整天时间换算成毫秒 val grapTimeAllDayToMill=(24*60*60*1000).toString.toLong def
2016-04-26 21:04:24 2300 1
原创 使用spark读取es中的数据并进行数据清洗,使用fp-growth算法进行加工
最近学了spark,用fg-growth算法进行数据的关联排序object HelloPFg { def main(args: Array[String]) { val conf = new SparkConf().setAppName("Spark MLlib Exercise:K-Means Clustering") conf.set("es.index.au
2016-04-26 20:36:27 9263
原创 在使用FP-Growth算法时程序报错问题
今天试验了FP-Growth算法,日志做处理,打包到集群运行时报错,报错,但是网上找资料找不到Items in a transaction must be unique but got WrappedArray出现此问题的主要原因是fpg算法要求输入的数据是RDD(Array[String])类型,但是Array类型中是不允许出现重复的内容的,所以才会出现这个错误,只需
2016-04-25 15:52:39 1805 1
原创 scala中日期格式的转换
最近做项目,需要把Date类型的日期转换成毫秒。/** * 日期格式化函数,将日志中的日期进行格式化,按照分钟为最小单位,格式化成毫秒 * @param line */ private def formatData(line:Date)={ val date=new SimpleDateFormat("yyyy-MM-dd H:mm:ss") val
2016-04-22 11:22:18 12530
原创 spark读取elasticsearch中的多个index
spark读取elasticsearch中的多个index有几个思路可供选择1.直接用逗号隔开多个index,代码如下val esLogs=sc.esRDD("logstash-2016.04.05,logstash-2016.04.06")2.读取每一个,结果是RDD,然后将两个RDD进行合并,使用join是对两个RDD进行交集,union是取并集val esLogs=sc.
2016-04-15 13:06:41 3409
原创 Spark on yarn--几种提交集群运行spark程序的方式
今天看了spark的yarn配置,本来想着spark在hadoop集群上启动之后,还需要配置spark才能让yarn来管理和调度spark的资源,原来启动master和worker之后就会让yarn来原理spark的资源,因为我使用了spark和hadoop集群的高可用,可能是不是这个问题呢,还不太清楚,暂且记住,等我再研究研究因为我使用zookeeper集群来进行管理,所以我提交任务
2016-04-01 14:45:36 6782
空空如也
zookeeper启动后用jps命令查看QuorumPeerMain进程还在
2015-08-19
js实现动态的给某一个文本框赋值,赋三个文本框值到这个里面
2015-07-08
myeclipse中的tomcat4启动时卡住了,动不了!
2015-07-07
js怎么实现判断下面图片哪个被选中
2015-07-06
TA创建的收藏夹 TA关注的收藏夹
TA关注的人