自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 收藏
  • 关注

原创 数据源Parquet之使用,自动分区推断

数据源Parquet之使用编程方式加载数据Parquet是面向分析型业务的列式存储格式列式存储和行式存储相比有哪些优势呢?1、可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量。2、压缩编码可以降低磁盘存储空间。由于同一列的数据类型是一样的,可以使用更高效的压缩编码(例如Run Length Encoding和Delta Encoding)进一步节约存储空间。3、只读取...

2019-05-12 09:46:16 1229

原创 Spark-SQL DataFrame

Spark SQL的特点1、支持多种数据源:Hive、RDD、Parquet、JSON、JDBC等。2、多种性能优化技术:in-memory columnar storage、byte-code generation、cost model动态评估等。3、组件扩展性:对于SQL的语法解析器、分析器以及优化器,用户都可以自己重新开发,并且动态扩展。Spark SQL的性能优化技术简介...

2019-05-11 09:59:24 1013

原创 Spark- RDD持久化

RDD持久化原理Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个RDD反复执行多个操作的场景,就只要对RDD计算一次即可,后面直接使用该RDD,而不需要反复计算多次该RDD巧妙使用RDD...

2019-05-10 09:26:40 178

原创 spark学习- 创建RDD-操作RDD

创建RDD进行Spark核心编程时,首先要做的第一件事,就是创建一个初始的RDD。该RDD中,通常就代表和包含了Spark应用程序的输入源数据。然后在创建了初始的RDD之后,才可以通过Spark Core提供的transformation算子,对该RDD进行转换,来获取其他的RDDSpark Core提供了三种创建RDD的方式,包括:使用程序中的集合创建RDD;使用本地文件创建RDD;使用...

2019-05-09 09:55:38 675

原创 大数据day6~HDFS

HDFS入门1.1hadoop分布式文件系统分布式文件系统解决的问题就是大数据存储站在客户端的使用者角度来看,不需要关心文件系统的内部构造,只关心能不能存储数据站在文件系统内部看我们是分布式的系统,各个角色各司其职,共同完成文件存储和读取的任务1.2HDFS设计目标:故障是常态,故障的检测和自动快速修复是HDFS的核心目标 HDFS上的应用主要以流的形式读取数据,HD...

2019-03-12 16:23:39 136

原创 大数据day5~Hadoop集群

1.允许简单的编程模型在大量计算机集群上对大型数据进行分布式处理Hadoop指Apache的开源框架 核心组件有:HDFS(分布式文件系统):解决海量数据存储 YARN(作业调度和集群资源管理的框架):解决资源任务调度 MAPREDUCE(分布式运算编程框架):解决海量数据计算2。Hadoop 发展史 创始人 Doug Cutting 起源于Nutch发展离不开谷歌的3篇论文...

2019-03-12 09:34:23 141

原创 大数据day4~Zookeeper 选举机制和网络编程

Zookeeper选举机制:投票大于半数则胜出全新集群选举机制非全新集群选举全局配置中心命名中心zookeeper命名中心zookeeper给其他软件选老大网络编程OSI参考模型Socker机制:描述IP地址和端口基于UDO协议通信 用DatagramSocket...

2019-03-01 12:57:30 150

原创 大数据day3~Zookeeper

Zookeeper:是分布式协调服务的开源框架,用来解决分布式集群中应用系统的一致性问题。例如怎样避免同时操作统一数据造成脏读的问题本质是一个分布式小文件存储系统自己可以进行分布式的部署暂时把分布式理解为多台机器同时干活主从集群(常见一主多从)主从各司其职 但是从角色受到主角色管理主备集群(常见一主一备)解决单点故障,但是同一时间有且只有一个主可以工...

2019-02-28 10:28:45 138

原创 大数据day2~shell编程

shell编程是一个用C语言的编写的程序shell编程根java、php编程一样,只要有一个能编写代码的文本编辑器和一个能解释执行的脚本解释器就可以啦Linux的shell种类众多,一个系统可以存在多个shell,可以通过cat/etc/shells命令查看系统中安装的shellBash也是大多数Linux系统默认的shellu+x  userg     groupo ...

2019-02-27 11:47:48 134

原创 大数据day2~Linux增强

Linux增强常用查找命令:1.1grep 文本搜索工具,用正则表达式搜索文本,并把匹配的打印出来ps -ef | grep sshd 查看指定的ssh服务进程ps -ef |grep sshd  | grep -v grep 查找指定服务进程排除grepps -ef | grep sshd -c 查找指定进程个数1.2find  全部遍历 find .-nam...

2019-02-27 11:14:51 149

原创 day1练习题 找出数组中重复的数字,二维数组中查找

"""题目一:找出数组中重复的数字 在一个长度为n的数组里的所有数字都在0~ n-1 的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道重复了 几次。请找出数组中任意一个重复的数字。例如,如果输入长度为7的数组{2,3,1,0,2,5,3},那么对应输出是重复的数字2或3."""思路:由于数组中元素都在0~n - 1的范围内,如果这个数组中没有重复元素,那...

2019-02-26 10:03:28 525

原创 大数据 day1~JavaEE和大数据的区别、vmware 、虚拟克隆

JavaEE和大数据的区别:1.架构层面javaEE体系:三层架构 表现层(Web) 业务层(service) 持久层(Dao) 大数据体系:围绕数据 数据采集(数据源) 数据存储 数据计算(分析) 数据展示2.技术层面JavaEE: 成熟 解决方案多 技术点集中 大数据:相对年轻 迭代更新快 解决方案相对少 技术相当繁琐 杂碎3.开发层面JavaEE: 代码量很大...

2019-02-26 09:55:45 200

原创 数据结构和算法第四天~树 ,二叉树

 树树(英文Tree):它是一种抽象数据类型(ADT)或是实作这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。它具有以下的特点:  每个节点有零个或多个子节点   没有父节点的节点称为根节点   每一个非根节点有且只有一个父节点   除了根节点外,每个子节点可以分为多个不相交的子树树的术语:节点的度:一个节点含有的子树的个数称为该节点的度 树的度:一棵树中...

2019-02-23 09:57:48 157

原创 数据结构和算法第四天~单向循环链表、希尔排序、快速排序、常见排序算法效率比较

单向循环链表#coding=utf8class Node(object): """ 节点""" def __init__(self,elem): self.elem=elem self.next=None #node=Node(100) class SingleCycleList(object): """单向...

2019-02-23 09:44:57 613

原创 数据结构和算法第三天~顺序表 ,链表,栈,单链表及节点的定义代码,单链表与顺序表的对比

顺序表 结构   顺序表的两种基本实现方式:一体式:整体性强易于管理,但是数据元素区域是表对象的一部分顺序创建后,元素存储区就固定了分离式:表对象里只保存与整个表有关的信息,实际数据元素存放在另一个独立的元素存储区里通过链接与基本表对象关联考虑到数据动态变化,一般都采用分离式链表:将元素存放在通过链接构造起来的一系列存储块中栈(堆栈):是一种容器...

2019-02-21 10:08:27 318

原创 数据结构和算法第二天~顺序表,元素存储扩充,顺序表添加与删除元素

顺序表:是指使用一组地址连续的存储单元依次存储数据元素的线性结构 顺序表还有两种构建形式:一体式构建和分离式构建一体式结构----由于顺序表信息区与数据区连在一起想更换数据区,只能整体搬迁 分离式结构----只需将表信息区中的数据区连接地址更新即可,而该顺序表对象不变 元素存储扩充:采用分离式结构的顺序表,只要程序的运行环境(计算机系统)还有空闲的存储空间,这种表结...

2019-02-20 11:07:26 420

原创 数据结构和算法第一天~算法概念特征,时间复杂度,timeit模块

算法概念:就是计算机处理信息的本质,告诉计算机每一步该怎么去执行,算法是计算机确切步骤的描述 算法是独立存在的一种解决问题的方法和思想 五大特征:输入:算法具有0个或者是多个输入 输出:算法至少有一个或者是多个输出 有穷性:算法在有限个步骤以后会自动结束而不是无限的循环,并且每一个步骤可以在接受的时间范围内结束运行 确定性:算法中的每一步都都自己的含义,不会出现二义性...

2019-02-19 09:53:15 156

原创 Python学习第十天~装饰器

装饰器用于管理和增强函数和类行为的代码提供一种在函数或类定义中插入自动运行代码的机制特点:更明确的语法 更高的代码可维护性 更好的一致性编写---函数基础---将函数赋值给变量 将函数作为参数传递 函数嵌套跨域访问函数定义装饰器:#coding=gbk"""函数定义装饰器decorator"""#需求:要对het_text这个函数返回的结果做一个修饰,...

2019-02-17 10:01:13 122

原创 Python学习第九天~threading模块、同步原语(锁)、队列、multiprocessing多进程模块、concurrent.futures 模块

threading模块.thread(target = 目标函数 , args = (参数1,参数2,.....)) threading.current_thread().name 获取当前线程的名称.start()启动线程.join()要求主线程等待.name 线程名称 import timeimport threadingdef worker(n): ...

2019-02-16 08:01:35 322

原创 Python学习第八天~系统工具、OS模块、并行编程

系统工具:概念:操作系统里面,帮我们执行的一些常见任务,在不同的操作系统中名字是不一样的常见的系统工具有:命令行工具 Shell脚本  系统管理python给我们提供了很多系统模块。我们主要学习sys、和os两个模块。sys:提供一组功能映射Python运行时的操作系统。 os:提供跨平台可一直的操作系统编程接口-------os.psh。:提供文件及目录工具的可移植编...

2019-02-15 10:57:58 147

原创 Python学习第七天~正则表达式

概念:Regular Expression 一种文本模式,描述在搜索文本时要匹配的一个或者多个字符串 典型场景:数据验证、文本扫描、文本提取、文本替换、文本分割 语法字面值: 普通字符 转义字符  \    ^  $  |  .   * + - () [] {}等元字符匹配单字,预定义元字符 .除\n外的所有字符 \d 数字,等同于[0-9]...

2019-01-30 09:58:02 104

原创 Python学习第六天~字符与编码

字符串概述类型str 字符串 bytes 字节 ybtearray 字节数组字符编码架构编码:Encoding:转换字符到原始字节形式解码:Decoding:依据编码名称转换原始字节到字符的过程字符集:赋值一个编码到某个字符,以便在内存中加载 字符串存储编码只作用于文件存储或中间媒介转换时内存中总是存储解码以后的文本 常见字符编码:ASCI...

2019-01-27 11:30:46 107

原创 Python学习第六天~数值、日期,随机数处理,日期时间操作、对象持久化

数值、日期f'数值:{a:-f}'  :显示出来a这个参数,以负数和浮点型展示 f'数值:{a:+f}' :显示出来a这个参数,以正数和浮点型展示 f'数值:{a:,f}' : 显示出来a这个参数,以千分为隔的显示! f'数值‘:{a:,.2}:显示出来a这个参数,以千分为隔并且只保留小数点后两位的显示! 小数位保留的时候,用到了四舍五入的方式  x = 18 , y = 23  . ...

2019-01-27 09:55:44 318

原创 Python学习第五天~面向对象2、错误异常处理、函数测试、单元测试

 面向对象特征:封装,继承,多态多态指:同一消息不同人给出的反应不同,比如程序员和HR的工作就是不同,但是他们都是在工作,工作的内容不同 __repr__:程序员看简易的对象用的,控制台写对象 __str__:让普通用户看的更直白一些,打印 __del__:删除对象执行class Book: count = 0 #初始化对象的时候调用 ...

2019-01-26 09:39:11 235

原创 Python学习第四天~包与模块管理,面对对象思想

模块import 导入 from 从....导入指令import     from     importlib.reload(模块)重载内容只能是模块 why 代码重用 命名空间 实现数据或服务共享步骤找到模块文件 编译为字节码 运行模块文件搜索范围程序主目录 环境变量 标准库 扩展库面对对象思想:事物特征能做什么不同对象之间的关系...

2019-01-25 09:15:00 136

原创 Python学习第三天~迭代、函数、

迭代---迭代协议---__next__():能够获取下一个元素迭代工具 for....、推导...、map...迭代器对象已经内部实现了__next()__方法,也可以使用全局函数next()可迭代对象中并没有自己实现迭代器,需要我们手动实现,手动实现的方法就是调用   iter(想要被迭代的对象)用于生成迭代器__iter__()内置可迭代对象range()map(...

2019-01-24 09:51:43 486

原创 Python学习第二天~字典表,元祖,文件操作,汇总,语句与表达式

字典表  dict字典表运用哈希算法,所以乱序声明  { 键:值。。。。}         dict(键=值)操作     获取    d['键']       d.gat('键',默认值)           合并     d.update(d2)属性   keys()    values()      items()排序:将keys()放入列表         ...

2019-01-23 09:33:04 154

原创 Python学习第一天~Python优点、运行、变量类型及存储、对象类型、数据类型

Python优点:软件质量,开发效率,可移植性,库支持丰富,组件集成多,软件质量高劣势:运行速度不如 c c#等哪些公司用:谷歌,youtube,搜狗邮箱,知乎等等能做什么:系统编程 GUI窗体程序 网络脚本 WEB------Djano、Flask 数据库 快速原型 数学及科学计算优势面向过程,函数式编程,面向对象 Python运行1,交互提示符...

2019-01-22 09:37:02 174

原创 MySQL-(3)

外连接  左连接以左表为主,右外连接以右表为主 外键保证数据的一致性和完整性删除外键:DROP TABLE *****;CASCADE:从父表删除或更新且自动删除或更新子表中匹配的行SETNULL:从父表中删除或更新行,并设置子表中的外键列为NULL,如果使用改选项,必须保证子表列没有指定NOTNULL联合查询SELECT username FROM emplo...

2019-01-21 09:55:34 112

原创 MySQL----2

MySQL语法是大写!  语句结束必须用分号结尾 ;在SQL语句中-- 英文双横杠+空格表示注释MySQL 查看数据库SHOW DATABASES;我们可以在登陆 MySQL 服务后,我们可以使用 show 查看数据库 database语法MySQL 创建数据库语法使用 creat 命令创建数据库,语法如下:CREATE DATABASE 数据库名;高级应用...

2019-01-20 12:32:51 89

原创 数据库基础学习MySQL

                      MySQL基础启动MySQL   net start mysql关闭MySQL   net stop  mysql登录   mysql -uroot -p退出   mysql>exit;       mysql>quit;       mysql>\p;显示当前服务器版本   SELECT VERSION()...

2019-01-19 09:41:01 86

原创 Linux基础

基本环境网络设置ipv4 地址 192.168.198.***创建用户useradd    ****passwd    ****切换用户  su-hulu注意:root用户切换普通用户 su hulu 不用密码从普通用户切换到root用户su 用密码 清屏 clear显示当前用户所在目录 pwd 当前目录有什么 ls  查看主机名称 hostname...

2019-01-18 10:31:59 105

原创 Java第二十七天学习笔记~(反射、正则表达式)

反射Java反射机制是在运行状态中,对于任意一个类都能够知道这个类的所有属性和方法对于任意一个对象都能够调用他的任意一个方法和属性这种动态获取信息及动态调用对象的方法的功能称为Java语言的反射机制 动态获取类中信息就是Java反射可以理解为对类的解剖 反射技术提高了我们程序的扩展性给用户提供的我们之间的桥梁是配置文件(web.xml)我们主要开发的是接口和...

2019-01-09 08:04:06 105

原创 Java第二十六天学习笔记~(网络编程-----二)

网络编程(常见客户端和服务端)最常见的客户端:    浏览器 :IE最常见的服务端:    服务器:Tomcat 自定义服务端使用已有的客户端IE,了解一下客户端给服务端发了什么请求? 发送的请求是:GET / HTTP/1.1  请求行  请求方式  /myweb/1.html  请求的资源路径   http协议版本请求消息头 . 属性名:属性值...

2019-01-06 09:51:18 114

原创 Java第二十五天学习笔记~(网络编程)

一、网络编程概述:1、实现网络之间的通信,要具备三个要素,IP地址,端口,和通讯协议IP地址:它是为主机编地址的方式.IP地址是32位的二进制数。它被分隔成4部分,每部分八个二进制位,中间用,隔开,因此每段最大为255。常见的IP地址有IPV4和IPV6.。IPV4为32位,分4段,每段最大值为255,但是随着互联网的发展,IP地址需求过大,因此产生了IPV6它是采用128位的地址长度。解...

2019-01-04 09:41:52 178

原创 Java第二十四天学习笔记~IO流(文件切割、对象的序列化、反序列化、编码表等)

文件切割import java.io.File;import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException; public class SplitFileDemo { private static final int SIZE = 1024*1024; p...

2019-01-04 09:21:43 109

原创 Java第二十三天学习笔记~IO流(File类、递归、删除目录、Properties集合、打印流、序列流)

File类深度遍历文件夹File dir=new File();list All(dir);File[] files=files[x].listFiles();递归函数自身直接或者间接调用了自身一个功能重复被使用,并且每次使用时,参与运算的结果和上一次调用有关,这时可用递归注意:1.递归一定明确条件,否则容易出现栈溢出2.注意递归的次数删除目录原理...

2018-12-29 08:31:31 197

原创 Java第二十二天学习笔记~IO流(转换流、流的操作规律、File类)

转换流InputStreamReaderpublic class InputStreamReaderDemo { public static void main(String[] args) throws IOException { //演示字节转字符流的转换流 readCN(); } public static void readCN() throws IOExcepti...

2018-12-27 08:37:14 139

原创 Java第二十一天学习笔记~字符流缓冲区

字符流Reader是字符输入流的基类,用于从某个源设备读取字符Writer是字符输出流,用于向某个目标设备写入字符字符流操作文件字符输入流FileReader,通过此流可以从关联的文件中读取一个或一组字符。在程序开发中,经常需要向文件中写入字符,可以使用Writer的一个子类FileReader。需求:在硬盘上,创建一个文件,并写入一些文字数据。用于操作操作文件的Wri...

2018-12-21 08:19:41 193

原创 Java第二十天学习笔记~其他对象API(System类、Runtime类、Math类、Date类、Calendar类)、IO流

System类类中的方法和属性都是静态的常见方法:Long currentTimeMillis( );获取当前时间毫秒值 Properties prop=System.getProperties( );获取系统的属性信息,并存储到Properties集合中Runtime类使应用程序与其运行的环境相连应用程序不能创建自己的RuntimeRuntime:没有构造方法摘要,说...

2018-12-19 08:09:26 210

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除