2020年03月_SuperBigData~

原创 SparkSession的三种创建方式

美图欣赏:一.SparkSession的三种创建方式import org.apache.spark.SparkConfimport org.apache.spark.sql.SparkSession/** * sparksql的初始化 */object SparkSQLDemo { def main(args: Array[String]): Unit = { ...

2020-03-31 14:10:58 1603

原创 Spark中创建DataFrame三种方式

美图欣赏：一.背景：在老的版本中，SparkSQL提供两种SQL查询起始点，一个叫SQLContext，用于Spark自己提供的SQL查询，一个叫HiveContext，用于连接Hive的查询，SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和HiveContext上可用的API在SparkS...

2020-03-31 13:36:41 954

原创 spark中自定义分区排序(解决数据倾斜问题)

美图欣赏：一.背景我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略，这两种分区策略在很多情况下都适合我们的场景。但是有些情况下，Spark内部不能符合咱们的需求，这时候我们就可以自定义分区策略（注：默认是HashPartitioner分区）二.如何实现要实现自定义的分区器，你需要继承 org.apache.spark.Par...

2020-03-27 17:43:24 680

原创 Python中 class Impor tHookManager (ModuleType) : NameError: name’ ModuleType is not def ined 报错解决方案

一.报错内容class Impor tHookManager (ModuleType) : NameError: name’ ModuleType is not def ined报错内容大致意思是：未定义名称’ModuleType如下图报错：二.解决办法（亲测版）刚开始我以为是我python3.6有问题，后来我给卸载了。我又重新安装了一个python3.7的版本。但是，还是报这个错...

2020-03-26 14:51:12 304

原创 Spark集群启动流程

美图欣赏：一.Spark集群启动流程图（1）Spark集群启动流程:1、调用start-all.sh脚本 ,开始启动Master2、Master启动以后, preStart方法调用了一个定时器,定时的检查超时的Worker.（定时器默认时间为60s）3、启动脚本会解析slaves配置文件,找到启动Worker的相应节点,开始启动Worker4、Worker服务启动后开始调用pre...

2020-03-22 20:23:48 1057 1

原创用Spark开发基站停留时间Top2

美图欣赏：一.介绍根据用户产生日志的信息,在那个基站停留时间最长 19735E1C66.log 这个文件中存储着日志信息文件组成:手机号,时间戳,基站ID连接状态(1连接 0断开) lac_info.txt 这个文件中存储基站信息文件组成基站ID, 经,纬度在一定时间范围内,求所用户经过的所有基站所停留时间最长的Top2 思路:1.获取用户产生的日志信息并切分2.用户在...

2020-03-21 14:04:18 375

原创日期转换为具体的时间的pom依赖

美图欣赏：日期转换为具体的时间的pom依赖：<dependency> <groupId>joda-time</groupId> <artifactId>joda-time</artifactId> <version>2.0</version></dependency>...

2020-03-21 13:18:13 434

原创电影推荐系统项目搭建IDEA开发环境(三)

美图欣赏：一.新鲜一感你要学会长大，才能抵得过流言蜚语二.项目开发环境搭建介绍1.这个项目，一共分为三层。第一层：RecommendSystem第二层：recommender第三层：dataloader2.可以看下环境构建好的框架图：从上到下，一次分为三层三.如何搭建注：前提是有自己的maven依赖库1.创建好的第一层RecommendSystem再次...

2020-03-21 13:05:13 1176 2

原创电影推荐系统项目集群环境搭建(二)

美图欣赏：一.新鲜一感世间的美好是及时努力的你二.集群环境介绍1.下面是推荐项目，用到的所有安装包这里搭建的都是单节点的，相对来说已经足够了注：百度网盘安装包链接：永久有效链接：https://pan.baidu.com/s/1r9rwyzSQio_TbrXcI3tJ4g 提取码：zyhb三.搭建环境前，准备事项注意1：这里需要提前声明一下，虚拟机的配置内存...

2020-03-20 16:08:39 1250 4

原创电影推荐系统项目介绍(一)

美图欣赏:一.新鲜一感半山腰总是挤的，记得上山顶看看，那里有最好的星空二.项目介绍1.、推荐系统是什么？信息过载时代所采用的措施。面对海量的数据信息，从中快速推荐出符合用户特点的物品。受众：没有明确需求的人；"选择困难症"。没有推荐系统：分类目录，搜索引擎有弊端：信息量小，不够个性化推荐系统是自动化的通过分析用户的历史行为数据，完成用户的个性化建模，从而...

2020-03-19 18:04:24 5940

原创 Spark中RDD的对象传递(序列化问题)

美图欣赏：一.新鲜一感即使生活在阴沟，也要记得仰望星空二.RDD的对象传递1.先说下一般什么是在Driver端执行，什么是在Executor端执行（1）Driver端执行：初始化的过程就是例如：val conf = new SparkConf().setAppName(“test”).setMaster(“local[*]”)val sc = new SparkCont...

2020-03-18 20:06:30 1220

原创 Spark中如何统计pv,uv的数量？

美图欣赏：一.新鲜一感你本来是有机会的，但是你输了，你不能总是活在过去二.pv , uv 的概念pv、uv属于统计网站的访问量pv：用用户请求的ip地址来计算用户访问的网站的页面的次数该需求的统计具有真实性，是衡量网站流量的重要指标uv：可以理解为访问某网站的电脑的数量网站判断来访电脑的身份是通过来访电脑的cookies实现的，往往是按天来统计如果更换了ip后但不清除co...

2020-03-16 23:32:07 1138

原创 Spark中combineByKey countByKey countByValue foreach foreachPartition filterByRange flatMapValues等算子集合

美图欣赏：一.新鲜一感同是风华正茂，怎敢甘拜下风二.Spark中算子1.combineByKey算子源码：(createCombiner: V => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C)（1）案例一scala> val rdd4 = sc.parallelize(List("do...

2020-03-15 22:43:11 300

原创 spark中repartition, coalesce, partitionBy, repartitionAndSortWithinPartitions 四种重分区算子

美图欣赏：一.背景spark中一共有四种重分区算子：1.repartition2.coalesce3.partitionBy4.repartitionAndSortWithinPartitions二.spark中map，mapPartitions，mapPartitionsWithIndex，sortBy ，sortByKey 算子1.创建一个集合（默认设置是俩分区）在...

2020-03-15 11:01:28 2108

原创 spark中 groupByKey，reduceByKey，cogroup，sample，groupBy，cartesian, union 算子

美图欣赏：一.背景RDD支持两种操作:转化操作和行动操作。RDD 的转化操作是返回一个新的 RDD的操作，比如 map()和 filter()，而行动操作则是向驱动器程序返回结果或把结果写入外部系统的操作。比如 count() 和 first()。Spark采用惰性计算模式，RDD只有第一次在一个行动操作中用到时，才会真正计算。Spark可以优化整个计算过程。默认情况下，Spark ...

2020-03-14 15:43:05 1145

原创在IDEA中如何用Debug调试程序

美图欣赏：一.背景get一个技能，哈哈（捂脸）二.程序当自己写完一个lamda程序后，如果不想传入数据路径，可以用args[0]形式//写入数据 JavaRDD<String> lines = sclamb.textFile(args[0]);如何传入真正的数据路径呢？1.下面可以看下，直接在IDEA页面里面传入数据路径2.点击上一步红框进去这里需要什么...

2020-03-12 21:47:27 3635 1

原创将jar包运行在集群（从hdfs输入到hdfs输出）

美图欣赏：一.背景一般写好的程序，都会将在集群上运行二.程序简单的用wordcount来测试下，到集群运行。（从hdfs输入到hdfs输出）需要注意几点：1.既然从hdfs中读取，那么就需要传入一个args(0)，作为输入val lines: RDD[String] = sc.textFile(args(0))2.输出到hdfs中，也需要传一个args(1)，作为输出s...

2020-03-12 17:06:27 1572

原创利用Akka实现WordCount计数

美图欣赏：一.Akka实现WordCount计数import akka.actor.{Actor, ActorRef, ActorSystem, Props}import akka.util.Timeoutimport com.typesafe.config.ConfigFactoryimport scala.concurrent.Awaitimport scala.io.Sourc...

2020-03-10 22:52:33 354

原创 Netty原理及代码实现

美图欣赏：一.Netty原理分析RpcEndpoint：RPC端点，Spark针对于每个节点（Client/Master/Worker）都称之一个Rpc端点 ,且都实现RpcEndpoint接口，内部根据不同端点的需求，设计不同的消息和不同的业务处理，如果需要发送（询问）则调用Dispatcher。RpcEnv：RPC上下文环境，每个Rpc端点运行时依赖的上下文环境称之为RpcEnv...

2020-03-10 19:45:39 586

原创揭秘Akka

美图欣赏：一.Akka和Actor介绍Akka基于Actor模型，提供了一个用于构建可扩展的（Scalable）、弹性的（Resilient）、快速响应的（Responsive）应用程序的平台。Scala在2.11.x版本中将Akka加入其中，作为其默认的Actor，老版本的Actor已经废弃。Actor模型：在计算机科学领域，Actor模型是一个并行计算（Concurrent Co...

2020-03-10 19:09:21 252

原创 Kafka消费模式详解

美图欣赏：一.Kafka是什么在流式计算中，Kafka一般用来缓存数据，spark通过消费Kafka的数据进行计算。1）Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。2）Kafka最初是由LinkedIn公司开发，并于2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标...

2020-03-09 15:42:25 6934

原创用Scala爬取网络上URL,写入本地文件

美图欣赏：一.背景之前用python爬取过网络上URL,写入本地文件今天用scala代码实现，发现更加简单二.代码实现爬取的URL,还是CSDN的，哈哈//scala 没有内建的对写入文件的支持，要写入文件，使用Java.io.PrintWriterimport java.io.PrintWriterimport scala.io.Sourceobject R...

2020-03-08 17:31:43 505 1

原创如何解决scala读取本地文件失败

美图欣赏：一.代码操作import scala.io.Sourceobject ReadFlieDemo { def main(args: Array[String]): Unit = { val source = Source.fromFile("D:\\input\\student1.txt") //返回的是迭代器 val array = source....

2020-03-08 16:13:17 3631 1

原创 scala的单例对象

美图欣赏：一.单例对象在Scala中没有静态方法和静态字段，但是可以使用object这个语法结构来达到同样的目的1.scala类似于Java中的工具类，可以用来存放工具函数和常量2.高效共享单个不可变的实例3.单例模式单例对象虽然类似于Java中的工具类，但它不是，还是一个对象，可以把单例对象名看做一个贴在对象上的标签。二.单例对象的使用package day04im...

2020-03-07 14:54:42 641

原创 scala伴生对象

美图欣赏：一.背景基础不牢，地洞山摇。哈哈，来点干货补充能量二.伴生对象1.定义：在Scala的类中，与类名相同并且用object修饰的对象叫做伴生对象，类和伴生对象之间可以相互访问私有的方法和属性，他们必须存在同一个源文件中2.案例详解package day04/** * 类名和类文件名称可以不统一 * * 一个类文件里可以有多个类 * 声明一个类，不...

2020-03-06 17:44:03 493

原创 scala集合练习(源码解析)

一.背景二.集合实战

2020-03-05 23:46:03 1288

原创 scala中Set集合大全

美图欣赏：一.Set无序，不可重复。二.代码演示scala> val set1 = Set(1,2,3)set1: scala.collection.immutable.Set[Int] = Set(1, 2, 3)//操作符 + ，添加一个元素scala> set1 + 4res0: scala.collection.immutable.Set[Int]...

2020-03-04 19:15:13 1829

原创 scala中List列表大全

美图欣赏：一.List 框架图二.List列表集合三.不可变List四. 可变List

2020-03-04 16:44:19 1550

原创 scala中的zip拉链大全

美图欣赏：一.zip拉链二. zip扩展

2020-03-04 13:15:46 3080 2

原创爬虫的基础知识

一背景爬虫很有意思，功能也很强大。二.基础爬虫实现#!/usr/bin/env python# -*- coding:utf-8 -*-author = 'Jackson'#1.爬取一个网页#导入python3.x中的urllib.request库import urllib.request#创建爬取百度官网对象response=urllib.request.urlope...

2020-03-03 21:20:27 215

原创 scala中Tuple元组大全

美图欣赏：一.背景元组在操作Spark中还是非常多的二.元组(Tuple)映射是K/V对偶的集合，对偶是元组的最简单形式，元组可以装着多个不同类型的值，是不同类型的值的聚集。三.代码举例映射是K/V对偶的集合，对偶是元组的最简单形式，元组可以装着多个不同类型的值，是不同类型的值的聚集。scala> val tuple = (1, "Jackson" , ...

2020-03-03 19:21:37 1509

原创 scala中Map集合大全

美图欣赏：一.背景映射（map）, 也是十分重要的。大好基础，才能一路打boss二.Map介绍在Scala中，把哈希表这种数据结构叫做映射。Scala中的Map存储的内容是键值对(key-value)，Scala中不可变的Map是有序的，可变的Map是无序的。Scala中，有可变Map (scala.collection.mutable.Map) 和不可变Map(s...

2020-03-03 13:48:42 3740

原创 scala中Array数组大全

美图欣赏：一.背景数组里面有很多方法，需要多加练习二.数组例子scala> val arr = Array(1,2,3,4,5)arr: Array[Int] = Array(1, 2, 3, 4, 5)scala> val arr1 = new Array(1)arr1: Array[Nothing] = Array(null)scala> arr1...

2020-03-02 19:12:01 1327

原创 scala集合框架图

美图欣赏：一.scala集合所有的集合类都在包中发现scala.collection或它的子包中的一个mutable，immutable和generic在三个变种通过客户端代码存在所需的大多数集合类，分别位于包分别。scala.collection， scala.collection.immutable和scala.collection.mutable每个变体在可变性方面都有不...

2020-03-01 17:34:15 1031

知其然，知其所以然