- 博客(16)
- 资源 (2)
- 收藏
- 关注
转载 MapReduce任务参数调优
主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。Hadoop的默认配置文件(以cdh5.0.1为例):core-default.xmlhdfs-default.xmlmapred-default.xml说明:在hadoop2中有些参数名称过时了,例如原来的mapred.reduce.tasks改名为mapreduce.job.
2016-11-27 14:13:06 382
原创 机器学习笔记
一、授课内容:1、参数估计和采样2、朴素贝叶斯分类:生成模型 判别模型 条件独立性假设(如果条件不成立,慎重)症状 职业 疾病打喷嚏 护士 感冒打喷嚏 农夫 过敏头痛 建筑工人 脑震荡头痛 建筑工人 感冒打喷嚏 教师 感冒头痛 教师 脑震荡现在来了第七个病人,一个打喷嚏的建筑工人,
2016-11-27 13:26:19 406
原创 道德经 上篇:道经 第二章
天下皆知美之为美,斯恶已;皆知善之为善,斯不善已。故有无相生,难易相成,长短相形,高下相倾,音声相和,前后相随。是以圣人处无为之事,行不言不教;万特作焉而不辞,生而不有,为而不恃,功成而弗居。夫唯弗居,是有不去。
2016-11-23 14:46:13 750
原创 统计没有农产品市场的省份有哪些
/** * 统计没有农产品市场的省份有哪些 */ //有农产品市场的省份 val productRDD=sc.textFile("file:///home/tg/datas/product.txt") //全国所有的省份 val provsRDD=sc.textFile("file:///home/tg/datas/allpr
2016-11-15 10:19:19 848
原创 统计排名前 3 的省份共同拥有的农产品类型
/** * 统计排名前 3 的省份共同拥有的农产品类型 */ val num=0 val numTest=sc.accumulator(num) //创建累加器 val lines=sc.textFile("file:///home/tg/datas/product.txt") val result=lines.map(m
2016-11-14 22:34:37 939
原创 道德经 上篇:道经 第一章
道可道,非常道。名可名,非常名。无名,天地始;有名,万物母。常无,欲观其妙;常有,欲观其徼。此两者同出而异名,同谓之玄。玄之又玄,众妙之门。
2016-11-12 22:02:59 1081
原创 Spark SQL+Spark Streaming案例
package SparkStreamingimport org.apache.spark.SparkConfimport org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import
2016-11-10 16:34:41 2198
原创 Flume监控的数据Push推送给SparkStreaming(Scala版本)
package SparkStreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.flume.FlumeUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Created by
2016-11-09 16:53:14 544
原创 reduceByKeyAndWindow实现基于滑动窗口的热点搜索词实时统计(Java版本)
package gh.spark.SparkStreaming;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.function.Function;im
2016-11-08 13:43:22 3776
原创 reduceByKeyAndWindow基于滑动窗口的热点搜索词实时统计(Scala版本)
package SparkStreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * * 基于滑动窗口的热点搜索词实时统计 * 每隔5秒钟,统计最近20秒钟的搜索词的搜索频次, * 并打印出
2016-11-08 13:41:42 6127
原创 transform实现广告计费日志实时黑名单过滤(Scala版本)
package SparkStreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Created by tg on 11/6/16. */object transformDemo { def
2016-11-08 13:39:58 790
原创 transform实现广告计费日志实时黑名单过滤(Java版本)
package gh.spark.SparkStreaming;import java.util.ArrayList;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import
2016-11-08 13:37:55 655
原创 updateStateByKey案例(Scala版本)
package SparkStreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Created by tg on 11/4/16. */object updateStateByKeyPro {
2016-11-05 17:18:39 2168
原创 updateStateByKey案例(Java版本)
package gh.spark.SparkStreaming;import java.util.Arrays;import java.util.Iterator;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.Optional; //注意O
2016-11-05 17:17:08 815
原创 Spark SQL on Hive配置
1、在Spark的conf目录中 vi hive-site.xml hive.metastore.uris thrift://tgmaster:9083 Thrift URI for the remote metastore.Used by metastore client to connect to metastore. 2、在Spark的li
2016-11-03 15:20:51 345
原创 实时wordcount程序
package gh.spark.SparkStreaming;import java.util.Arrays;import java.util.Iterator;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapF
2016-11-02 18:21:56 452
Hive数据仓库(一)
2016-09-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人