lzw2016的博客

大数据、数据分析、机器学习等学习记录项目:Coding Now (https://github.com/josonle/Coding-Now)...

大数据之Hadoop学习——动手实战学习MapReduce编程实例

文章目录一、MapReduce编程实例1.自定义对象序列化需求分析报错:Exception in thread "main" java.lang.IllegalArgumentExc...

2018-12-09 15:30:21

阅读数 2243

评论数 5

【MapReduce详解及源码解析(一)】——分片输入、Mapper及Map端Shuffle过程

title: 【MapReduce详解及源码解析(一)】——分片输入、Mapper及Map端Shuffle过程 date: 2018-12-03 21:12:42 tags: Hadoop categories: 大数据 toc: true 点击查看我的博客:Josonlee’s Blog 版权...

2018-12-03 21:20:21

阅读数 129

评论数 0

Python数据分析学习文章归纳

本文搜集我学习实战过程中看到的好文,和自己学习总结的一些文章,持续更新 数据分析如何入门学习How do I learn data analysis with Python? 虽然是英文的,不过看一遍很大收获(可以用百度翻译看一下) Numpy使用 快速入门Numpy Stack O...

2018-05-27 20:36:02

阅读数 454

评论数 0

Java7/8中的 HashMap 和 ConcurrentHashMap 全解析

文章目录Java7 HashMapput 过程分析数组初始化计算具体数组位置添加节点到链表中数组扩容get 过程分析Java7 ConcurrentHashMap初始化put 过程分析初始化槽: ensureSegment获取写入锁: scanAndLockForPut扩容: rehashget ...

2019-03-18 09:23:25

阅读数 9

评论数 0

【Deepin】最新XMind for Linux 破解版安装

文章目录下载XMind8下载破解文件解压修改host避免xmind联网注册相关信息安装XMind并添加序列号Windows下破解安装 下载XMind8 https://www.xmind.cn/download/xmind8/ 下载破解文件 解压 一是把下载的xmind-8-update8-lin...

2019-03-17 17:37:21

阅读数 6

评论数 0

一张图快速回顾总结Hive方方面面

放在百度脑图上了,http://naotu.baidu.com/file/cdcd76d878f210e43a91b24d4254abed?token=c3839e44e93c9a5e

2019-03-12 11:26:30

阅读数 8

评论数 0

eclipse如何导入Spark源码方便阅读

最近想看下spark sql的源码,就查了些相关文章。很多都是IDEA怎么导入的,还有就是谈到了自己编译spark源码再倒入,但我还没有强到修改源码的地步,所以跳过编译直接导入阅读源码,过程如下 下载spark源码 从 https://github.com/apache/spark 下载你需要的s...

2019-03-09 21:00:35

阅读数 5

评论数 0

Spark使用JDBC将DataFrame数据写入mysql

spark foreachPartition 把df 数据插入到mysql 转载自:http://www.waitingfy.com/archives/4370,确实写的不错 import java.sql.{Connection, DriverManager, PreparedStateme...

2019-03-09 20:57:03

阅读数 18

评论数 0

Spark2.4+Hive使用现有Hive仓库中的数据

使用前准备 hive-site.xml复制到$SPARK_HOME/conf目录下 hive连接mysql的jar包(mysql-connector-java-8.0.13.jar)也要复制到$SPARK_HOME/jars目录下 或者在spark-submit脚本中通过–jars指明该jar...

2019-03-06 10:03:24

阅读数 43

评论数 0

Spark DataFrame如何更改列column的类型

如下示例,通过最初json文件所生成的df的age列是Long类型,给它改成其他类型。当然不止如下两种方法,但我觉得这是最为简单的两种了 val spark = SparkSession.builder().master("local").appName(&am...

2019-03-06 10:01:43

阅读数 21

评论数 0

LearningSpark(9):解析SparkSQL的数据来源(parquet、json、csv、jdbc等)

以下源码在 org.apache.spark.sql.DataFrameReader/DataFrameWriter中 format指定内置数据源 无论是load还是save都可以手动指定用来操作的数据源类型,format方法,通过eclipse查看相关源码,spark内置支持的数据源包括par...

2019-03-06 10:01:01

阅读数 29

评论数 0

LearningSpark(8):RDD如何转化为DataFrame

为啥要转换? DataFrame可以借助sql语句处理,简单快捷。向hdfs的数据只能创建RDD,转化为DataFrame后就可以使用SQL进行查询 方法 方法一:基于反射推断 适合已知RDD的 Schema ,这个基于方法的反射可以让你的代码更简洁。其通过Case class 定义了表的 Sch...

2019-03-06 09:58:42

阅读数 51

评论数 0

LearningSpark(7):SparkSQL创建及DataFrame学习

DataFrame说白了就是RDD+Schema(元数据信息),spark1.3之前还叫SchemaRDD,以列的形式组织的分布式的数据集合 Spark-SQL 可以以 RDD 对象、Parquet 文件、JSON 文件、Hive 表, 以及通过JDBC连接到其他关系型数据库表作为数据源来生成Da...

2019-03-06 09:58:08

阅读数 3

评论数 0

LearningSpark(5):Spark共享变量理解

共享变量 Spark又一重要特性————共享变量 worker节点中每个Executor会有多个task任务,而算子调用函数要使用外部变量时,默认会每个task拷贝一份变量。这就导致如果该变量很大时网络传输、占用的内存空间也会很大,所以就有了 共享变量。每个节点拷贝一份该变量,节点上task共享这...

2019-03-06 09:56:39

阅读数 4

评论数 0

LearningSpark(4):Spark持久化操作

持久化 Spark的一个重要特性,对RDD持久化操作时每个节点将RDD中的分区持久化到内存(或磁盘)上,之后的对该RDD反复操作过程中不需要重新计算该RDD,而是直接从内存中调用已缓存的分区即可。 当然,持久化适用于将要多次计算反复调用的RDD。不然的话会出现RDD重复计算,浪费资源降低性能的情况...

2019-03-06 09:55:53

阅读数 9

评论数 0

LearningSpark(3):常用RDD操作

键值对RDD上的操作 隐式转换 shuffle操作中常用针对某个key对一组数据进行操作,比如说groupByKey、reduceByKey这类PairRDDFunctions中需要启用Spark的隐式转换,scala就会自动地包装成元组 RDD。导入 org.apache.spark.Spark...

2019-03-06 09:55:07

阅读数 22

评论数 0

LearningSpark(2):spark-submit脚本和可选参数

提交应用的脚本和可选参数 可以选择local模式下运行来测试程序,但要是在集群上运行还需要通过spark-submit脚本来完成。官方文档上的示例是这样写的(其中表明哪些是必要参数): ./bin/spark-submit \ --class <main-class&am...

2019-03-06 09:54:10

阅读数 26

评论数 0

LearningSpark(1):数据来源

数据源自并行集合 调用 SparkContext 的 parallelize 方法,在一个已经存在的 Scala 集合上创建一个 Seq 对象 外部数据源 Spark支持任何 Hadoop InputFormat 格式的输入,如本地文件、HDFS上的文件、Hive表、HBase上的数据、Amazo...

2019-03-06 09:52:28

阅读数 20

评论数 0

java抽象类中可定义构造器和static静态方法吗?

首先,抽象类可以有构造器、静态方法,抽象类不一定要被其他类继承,可直接不实例化就使用 抽象类可以有构造器、静态方法。构造器能被子类继承并完成初始化,但不会创建抽象类的实例对象。静态方法的好处是不实例化就可由子类类名直接调用 抽象类直接使用省去了实例化过程 抽象类中的静态方法是存在内存中的,用...

2019-03-05 11:39:13

阅读数 17

评论数 0

关于Linux学习、Python数据分析、机器学习、Java大数据相关资源归纳的GitHub项目推荐

马上开学,准备今年考研,所以之后很长一段时间可能不会在csdn上记录文章了(下次写可能就是明年春了)。不过还是分享我整理了挺久的一个项目吧:Coding Now 主要是记录我学习Linux、Python爬虫、数据分析、机器学习、Java大数据开发过程中遇到的一些挺不错的资源(含个人笔记、书籍、视...

2019-02-19 16:47:07

阅读数 76

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭