大数据
她曾让你心动
这个作者很懒,什么都没留下…
展开
-
Echarts可视化实战
Echarts可视化实战获取HBase中的数据按天获取HBase中course_clickcount表的数据 public Map<String, Long> query(String tableName, String condition) throws Exception { HashMap<String, Long> map = new HashMap<>(); HTable table = getTable(table原创 2020-09-16 21:21:58 · 542 阅读 · 0 评论 -
Spark Streaming实时流处理项目
Spark Streaming 实时流处理项目实战项目整体流程:模拟用户访问日志数据;由Flume采集数据并通过Kafka进行消费;按照需求由spark sparkstreaming 进行实时处理,并将结果保存到HBase中;数据准备generate_log.py 生成模拟用户访问网站的日志数据由ip+时间+url+状态码+搜索引擎来源组成为了模拟实时处理流程,定时 运行generate_log.py 脚本定时运行:lgl.shpython /home/jackie原创 2020-09-16 00:12:13 · 611 阅读 · 0 评论 -
关于hadoop集群中Windows端无法访问50070端口但可以访问8088端口的问题解决
问题排除集群包括hadoop102、hadoop103、hadoop104,其中hadoop102 是master;虚拟机中所有端口均可正常访问,表明集群配置文件等没有问题;Windows端无法访问50070端口,准确的来说是无法访问master中的所有端口:yarn配置在hadoop103中,2NN配置在hadoop104,8088、50090端口可以访问,说明其他两台没有问题;那么问题就是在hadoop102中;问题解决hadoop102的防火墙出了问题,而其他两台的均正常关原创 2020-09-12 22:35:31 · 1783 阅读 · 0 评论 -
Spark 实现 Top N
需求取出每个班级前三的score数据格式class2 77class4 95代码import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object TopN { def main(args: Array[String]): Unit = { //创建SparkConf对象 val config: SparkConf = new SparkConf().原创 2020-09-10 23:46:40 · 410 阅读 · 0 评论 -
Spark 温度二次排序
输入数据格式预期结果package com.jackie.sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}class UDFSort(val first: Int, val second: Int) extends Ordered[UDFSort] with Serializable { override def compare(that: UDFSort): Int原创 2020-09-10 22:08:38 · 458 阅读 · 0 评论