2016年11月_霄嵩

12月 11月 10月 09月 08月

转载 MapReduce任务参数调优

主要记录Hadoop 2.x版本中MapReduce参数调优，不涉及Yarn的调优。Hadoop的默认配置文件（以cdh5.0.1为例）：core-default.xmlhdfs-default.xmlmapred-default.xml说明：在hadoop2中有些参数名称过时了，例如原来的mapred.reduce.tasks改名为mapreduce.job.

2016-11-27 14:13:06 382

原创机器学习笔记

一、授课内容：1、参数估计和采样2、朴素贝叶斯分类:生成模型判别模型条件独立性假设（如果条件不成立，慎重）症状职业疾病打喷嚏护士感冒打喷嚏农夫过敏头痛建筑工人脑震荡头痛建筑工人感冒打喷嚏教师感冒头痛教师脑震荡现在来了第七个病人，一个打喷嚏的建筑工人，

2016-11-27 13:26:19 406

原创道德经上篇：道经第二章

天下皆知美之为美，斯恶已；皆知善之为善，斯不善已。故有无相生，难易相成，长短相形，高下相倾，音声相和，前后相随。是以圣人处无为之事，行不言不教；万特作焉而不辞，生而不有，为而不恃，功成而弗居。夫唯弗居，是有不去。

2016-11-23 14:46:13 750

原创统计没有农产品市场的省份有哪些

/** * 统计没有农产品市场的省份有哪些 */ //有农产品市场的省份 val productRDD=sc.textFile("file:///home/tg/datas/product.txt") //全国所有的省份 val provsRDD=sc.textFile("file:///home/tg/datas/allpr

2016-11-15 10:19:19 848

原创统计排名前 3 的省份共同拥有的农产品类型

/** * 统计排名前 3 的省份共同拥有的农产品类型 */ val num=0 val numTest=sc.accumulator(num) //创建累加器 val lines=sc.textFile("file:///home/tg/datas/product.txt") val result=lines.map(m

2016-11-14 22:34:37 939

原创道德经上篇：道经第一章

道可道，非常道。名可名，非常名。无名，天地始；有名，万物母。常无，欲观其妙；常有，欲观其徼。此两者同出而异名，同谓之玄。玄之又玄，众妙之门。

2016-11-12 22:02:59 1081

原创 Spark SQL+Spark Streaming案例

package SparkStreamingimport org.apache.spark.SparkConfimport org.apache.spark.sql.{Row, SQLContext}import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}import

2016-11-10 16:34:41 2198

原创 Flume监控的数据Push推送给SparkStreaming(Scala版本)

package SparkStreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.flume.FlumeUtilsimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Created by

2016-11-09 16:53:14 544

原创 reduceByKeyAndWindow实现基于滑动窗口的热点搜索词实时统计(Java版本)

package gh.spark.SparkStreaming;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.function.Function;im

2016-11-08 13:43:22 3776

原创 reduceByKeyAndWindow基于滑动窗口的热点搜索词实时统计(Scala版本)

package SparkStreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * * 基于滑动窗口的热点搜索词实时统计 * 每隔5秒钟，统计最近20秒钟的搜索词的搜索频次， * 并打印出

2016-11-08 13:41:42 6127

原创 transform实现广告计费日志实时黑名单过滤(Scala版本)

package SparkStreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Created by tg on 11/6/16. */object transformDemo { def

2016-11-08 13:39:58 790

原创 transform实现广告计费日志实时黑名单过滤（Java版本）

package gh.spark.SparkStreaming;import java.util.ArrayList;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.JavaRDD;import

2016-11-08 13:37:55 655

原创 updateStateByKey案例(Scala版本)

package SparkStreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Seconds, StreamingContext}/** * Created by tg on 11/4/16. */object updateStateByKeyPro {

2016-11-05 17:18:39 2168

原创 updateStateByKey案例(Java版本)

package gh.spark.SparkStreaming;import java.util.Arrays;import java.util.Iterator;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.Optional; //注意O

2016-11-05 17:17:08 815

原创 Spark SQL on Hive配置

1、在Spark的conf目录中 vi hive-site.xml hive.metastore.uris thrift://tgmaster:9083 Thrift URI for the remote metastore.Used by metastore client to connect to metastore. 2、在Spark的li

2016-11-03 15:20:51 345

原创实时wordcount程序

package gh.spark.SparkStreaming;import java.util.Arrays;import java.util.Iterator;import java.util.List;import org.apache.spark.SparkConf;import org.apache.spark.api.java.function.FlatMapF

2016-11-02 18:21:56 452

Hive数据仓库（一）

Hive是hadoop领域的数据仓库。它提供了一套工具可以让我们非常方便的管理位于HDFS中的大型数据集，它提供了一套类似于SQL的查询语言，可以很容易的查询hive中的数据。Hive也有数据库、表、视图、索引、函数等概念，非常类似于我们常用的关系型数据库，因此入手非常方便。本资源是Hive授课讲义的一部分。

2016-09-25

锋利的jQuery

一本关于jQuery很经典的书，不可错过哦！

2012-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人