自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 Python Numpy & Pandas

List of lists 只适合处理小的data sets,因为list都会放在内存中,内存有限;Numpy library 可以较好地处理大的data setsNumpy官方文档: http://www.numpy.org/Convert a list of lists into a ndarrayimport numpy as npf = open("nyc_taxis.cs...

2021-03-27 20:52:10 195

原创 Python Resources

1. Basic Python Practice Bookhttps://anandology.com/python-practice-book/index.htmlA book of Python exercises to help you learn the basic language syntax.2. A Python Crash Coursehttps://www.grahamwheeler.com/posts/python-crash-course.html3. Beginner

2021-03-23 22:15:34 208

原创 Spark SQL 内核

SQL执行过程逻辑算子树生成未解析的逻辑算子树(Unresolved LogicalPlan)仅仅是数据结构,不包含任何数据信息等解析后的逻辑算子树(Analyzed LogicalPlan)树节点中绑定各种信息优化后的逻辑算子树(Optimized LogicalPlan)基于RBO,应用各种优化规则对一些低效的逻辑计划进行转换物理算子树生成基于逻辑算子树,生成物理算子树列表Iterator[PhysicalPlan](同样的逻辑算数树可能生成多个物理算子树)按照一定

2020-09-10 05:59:15 206

原创 BigData Reference Website

SparkSpark官网所有版本的Spark 官方参考信息:概要、编程引导、API文档等Spark documentation可选择查看历史所有版本的文档信息包含介绍、编程引导、API、部署等信息

2020-09-09 21:55:16 144

原创 Spark 调优 — 资源调优&参数调优

spark-submit 参数具体如下:spark-submit \--queue ${1} \ # 指定资源队列,否则默认default--master yarn--deploy-mode ${2} \ # client or cluster: 选择客户端模式或者集群模式提交:决定driver 是在本地还是集群内节点:cluster模式能够降低本地压力,发挥集群服务器优势--num-executors ${3} \ # 启动的executor进程数量:50-100个比较合适,具体看可用资源.

2020-08-25 21:34:58 1804 1

原创 Spark调优 — 开发调优

发挥分布式并行处理优势,降低代码的耦合度,实现不同部分代码能够并行执行,减少前后依赖的等待时间避免创建重复RDD,尽可能复用一个RDD代码上精简,提升复用率多次使用的RDD进行持久化建议使用MEMORY_AND_DISK_SER 持久化级别val rdd1 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt").persist(StorageLevel.MEMORY_AND_DISK_SER)持久化级别含义解释M

2020-08-24 23:34:00 345

原创 mapreduce.fileoutputcommitter.algorithm.version

两个版本(各有优劣)mapreduce.fileoutputcommitter.algorithm.version = 1性能方面:v1在task结束后只是将输出文件拷到临时目录,然后在job结束后才由Driver把这些文件再拷到输出目录。如果文件数量很多,Driver就需要不断的和NameNode做交互,而且这个过程是单线程的,因此势必会增加耗时。如果我们碰到有spark任务所有task结束了但是任务还没结束,很可能就是Driver还在不断的拷文件;数据一致性方面:v1在Job结束后才批量拷文件

2020-08-24 21:22:43 2944

转载 numpy.random

在python数据分析的学习和应用过程中,经常需要用到numpy的随机函数,由于随机函数random的功能比较多,经常会混淆或记不住,下面我们一起来汇总学习下。import numpy as np1 numpy.random.rand()numpy.random.rand(d0,d1,…,dn)rand函数根据给定维度生成[0,1)之间的数据,包含0,不包含1dn表格每个维度返回值为...

2019-12-30 22:16:36 124

转载 matplotlib命令与格式:参数配置文件与参数配置

<div class="blog-column-pay"> <a data-report-click="{&quot;mod&quot;:&quot;popu_834&quot;,&quot;dest&quot;:&amp...

2019-12-24 22:23:40 987

原创 jupyter notebook

1. MarkDown 标记在Jupyter的文本编辑单元格中,采用的就是Markdown的语法规范,因此它可以设置文本格式、插入链接、图片甚至数学公式(类似于LaTeX,编辑公式非常漂亮),如此一来,整个文档就看起来非常图文并茂。同样使用 Shift + Enter 运行Markdown单元来显示格式化的文本。两个“#”表示二级标题,三个“#”表示三级标题,以此类推字符串头尾各...

2019-12-17 22:35:31 138

原创 Spark Basics

Oracle to Spark SQL需要转换之处decode 转为case when condition then result_1 else result_2 end 写法decode是一个字符串函数:decode(binary bin, string charset) STRING 用charset的编码方式对bin进行解码。子查询必须指定一个别名下面语句...

2019-09-04 23:48:06 1108

转载 Hadoop Safemode

转自:https://www.cnblogs.com/xjh713/p/7509849.htmlhadoop启动检查副本块数,就会进入safemode虽然不能进行修改文件的操作,但是可以浏览目录结构、查看文件内容的。在命令行下是可以控制安全模式的进入、退出和查看的。命令 hadoop dfsadmin -safemode get 查看安全模式状态命令 hadoop dfsadmin...

2019-07-30 23:26:40 163

原创 Spark 初始化对象

Spark 1+ 和 Spark 2+ 初始化SparkContext有所区别,现列出Spark 1.5.0 和 Spark 2+中初始化sc方式:1 Spark 2+先创建一个SparkSession对象:通过config方法配置自定义设置,可以写多个config设置val spark = SparkSession.builder() // Creates a [[SparkSessio...

2019-07-21 20:37:28 297

转载 Python 文件操作

https://www.runoob.com/python3/python3-file-methods.html1. 文件打开open() 函数open(file, mode=‘r’, buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)file: 必需,文件路径(相对或者绝对路...

2019-07-18 18:18:54 135

原创 命令行参数_Python 笔记_20190628

1. 命令行参数如何传递参数给Python 脚本,python 如何获取参数值,详见argparse — Parser for command-line options, arguments and sub-commands

2019-07-18 18:12:28 143

原创 Hadoop 2.9.0 集群上安装Spark 2.4.0

已有环境说明:已安装hadoop 2.9.0 集群(安装过程见历史blog)1 安装Scala1.1 安装包下载Note: Starting version 2.0, Spark is built with Scala 2.11 by default.Scala 2.10 users should download the Spark source package and build...

2019-01-13 23:09:01 2903 2

原创 Hadoop 集群安装Hive

转自: https://www.2cto.com/net/201803/731209.html前置说明安装并集群Hadoop 集群:使用hadoop-2.9.0https://blog.csdn.net/daoxu_hjl/article/details/85875136hive只需要在NameNode节点安装即可,可以不在datanode节点安装1 下载与上传解压1.1 下载 ...

2019-01-13 19:00:04 1698

转载 Hadoop + HA环境配置

1 准备工作使用hadoop用户:免密:https://blog.csdn.net/daoxu_hjl/article/details/85546333NFS: https://blog.csdn.net/daoxu_hjl/article/details/85416475DNS: https://blog.csdn.net/daoxu_hjl/article/details/855...

2019-01-10 23:10:49 2514

原创 ZooKeeper安装与配置

1. 软件下载下载jar包:https://www.apache.org/dyn/closer.cgi/zookeeper/2. 软件安装使用hadoop用户登录:上传zookeeper-3.4.12.tar.gz到服务器(192.168.1.126: /opt/nfs_share/software)解压:tar -zxvf zookeeper-3.4.12.tar.gz创建专用目录...

2019-01-05 20:40:58 377

原创 RedHat 关闭防火墙 + 优化SELinux

关闭防火墙:  #立即关闭防火墙service iptables stop #永久关闭防火墙:下次开机才会生效chkconfig iptables off#查看防火墙开机启动模式chkconfig --list iptables 优化SELinux:#当前临时切换SELinux模式到Permissivesetenforce 0#查看getenforce...

2019-01-02 21:52:40 188

原创 DNS安装与配置

环境:4台Linux RedHat 6.4 机器(192.168.1.126、192.168.1.127、192.168.1.128、192.168.1.130)以192.168.1.126作为DNS服务器 1. 服务器软件安装      yum -y install bind bind-utils bind-chrootrpm -qa | grep '^bind' ...

2019-01-01 23:38:57 1330

原创 SSH免密登录

环境:4台Linux RedHat 6.4 机器(192.168.1.126、192.168.1.127、192.168.1.128、192.168.1.130),           配置各台机器hadoop 用户的免密认证登陆,建立相互信任关系1. 基础准备       4台机器分别:清空用户家目录/home/hadoop/下的.ssh文件夹(有其他重要文件可先行查看备份)关...

2019-01-01 21:45:18 311

原创 yum 仓库配置 --Red Hat 6

1.查看系统版本和内核 a. 系统版本         cat /etc/redhat-release b.系统内核        uname -a 2. 挂载 /dev/cdrom        umount /media/RHEL_6.4\ x86_64\ Disc\ 1/        mount /dev/cdrom /media3. 配置rep...

2018-12-30 23:56:18 306

原创 NFS安装与配置

1.服务端(192.168.1.126)   只有一台机器  1.1.软件安装      安装命令: yum -y install nfs-utils rpcbind        验证:           rpm -qa | grep nfs           rpm -qa | grep rpcbind1.2 启动服务     service r...

2018-12-30 23:50:59 1082

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除