自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

原创 python-numpy

#!/usr/bin/python# -*- coding:utf-8 -*-# 导入NumPy函数库,一般都是用这样的形式(包括别名np,几乎是约定俗成的)import numpy as npimport matplotlib as mplfrom mpl_toolkits.mplot3d import Axes3Dfrom matplotlib import cmimport...

2019-07-03 22:08:08 443

转载 python 常用匹配

1.身份证解析匹配--》分组匹配例:身份证1102231990xxxxxxxximport res = '1102231990xxxxxxxx'res = re.search('(?P<province>\d{3})(?P<city>\d{3})(?P<born_year>\d{4})',s)print(res.groupdict())此分...

2019-06-01 16:33:30 799

原创 python 正则匹配

在python 中,正则匹配用到的还是挺多的,下面总结一下常用的一些正则匹配:精确匹配:\d可以匹配一个数字,\w可以匹配一个字母或数字,. 匹配任意的单个字符\s可以匹配一个空格(也包括Tab等空白符)变长匹配:{N} 重复前面的单个字符N次出现{a,b} 重复前面的单个字符出现次数的范围在a-b次,例如:\d{3,8} 表示任意个字符(包括0个)*表...

2019-06-01 16:15:13 10918

原创 python 类的getter&setter

在编写java或者scala的时候,对一个类的变量等经常用到getter setter方法,在python里面同样也有对应的实例:可以直接用类.变量的方式获取数据实现getter,类.变量(值)的方式实现setter方法:定义方法如下:使用@property 和@xx.setter 标注的变量名的同名定义方法前即可实现class Student(object): ...

2019-05-22 23:02:06 4688 1

原创 python 获取对象信息

文章参考:这里判断对象类型,使用type()函数,>>> type(123)<class 'int'>>>> type('str')<class 'str'>>>> type(None)<type(None) 'NoneType'>>>> type(abs)==type...

2019-05-21 23:42:04 174

原创 python 默认规范

一个模块的常见形式如下:#!/usr/bin/env python3# -*- coding: utf-8 -*-'''我的一个测试python模块(这是模块的第一个字符串,默认为模块的文档注释)'''__author__='test' #指定作者,也可不写def prt(): print("测试输出")if __name__ == '__main__':...

2019-05-21 23:14:13 278

原创 python 高阶函数

Higher-order function高阶函数定义:一个函数接受 另一个函数作为参数,这种函数就称之为高阶函数比如:def add(x, y, f): return f(x) + f(y)当我们调用add(-5, 6, abs)时,参数x,y和f分别接收-5,6和abs,根据函数定义,我们可以推导计算过程为:x = -5y = 6f = absf(x) + ...

2019-05-21 23:02:14 107

原创 python 匿名函数

有些时候,不需要显式地定义函数,直接传入匿名函数更方便,匿名函数常用的是lambda表达式,格式是:lambda x : x*xlamda是匿名函数的标识,冒号前面的x为参数,冒号后面的是算法表达:例如:lambda x :x+5lambda 是一个表达式,是一个对象,也可以赋给变量,以及作为返回值返回(返回一个lambda函数),>>> f = lam...

2019-05-21 22:28:16 373

原创 python 生成器

先说一下列表生成式:它还是比较常用的,生成一个简单的数组:list_a=list(range (1,11))>>>[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]在复杂的场景下,我们不可能一个一个的append方式插入数据,可以利用列表生成式很简单的生成:print([x*5+2 for x in list(range(1 ,10)) if ...

2019-05-16 14:59:42 130

原创 ES 的基本操作(rest)

ES版本:6.4.1创建索引REST方式如下:(添加 pretty 到调用命令的末尾,目的是打印成格式化的 JSON 响应)curl -XPUT 'IP:9200/index_name?pretty&pretty'ES索引增加数据curl -XPUT 'localhost:9200/customer/external/1?pretty&pretty' -d'...

2019-05-10 14:15:28 1483

原创 python 字典操作

详细操作参考:官方文档info={'name':'zhangsan','age':34,'address':'beijing','101':'ceshi'}print(info)#python3.7版本后,键值对会按 LIFO 的顺序被返回,字典会保留插入时的顺序。键的更新不会影响顺序。 删除并再次添加的键将被插入到末尾info['101']='new101' #修改数据info.po...

2019-05-09 23:41:29 1294

原创 python -字符的操作

字符的常见操作可见:官方文档strLine = 'test line line2'print(strLine.capitalize())#首字母大写print(strLine.count('i'))#统计出现次数print(strLine.center(5,'-'))#不足字符按照后面的补齐print(strLine.startswith('t'))print(strLine.e...

2019-05-09 22:45:45 260

原创 python 列表的操作

# 数组,同java数组list1 = ['zhangsan', 'lisi', 'wangwu', 'idea','new','new']list1.append('dama') # 增list1.insert(1, 'insert') # 插list1[1] = 'new' # 改list1.remove('lisi') # 删 或者 del list1[1] 或者...

2019-05-08 23:09:25 222

原创 python string互转bytes

在python3中,数据的网络传输只能传输二进制数据,所以bytes和str转化需要清楚:a = '你好'b =a.encode('utf-8')print(b)c=b.decode('utf-8')print(c)结果:

2019-05-08 22:06:56 4178

原创 python-模块初识

模块:别人已经封装好的库,可以直接拿来直接调用,可一般分为标准库和第三方库标准库:不需要安装,可以直接导入,比较常用,标准库可见 官方文档第三方:需要安装并导入os模块:目录文件等操作,详情见官方文档import osos.system("dir")#执行命令,不保存结果tmp=os.popen("dir").read()print(tmp)os.mkdir("newD...

2019-05-07 23:39:22 232

原创 python-循环

python 循环 : if else while forcount = 0while count < 3: yourIn = int(input("请输入你的存款:")) if yourIn > 100: print("有钱") break else: print("穷") coun...

2019-05-07 22:58:15 143

原创 python交互-用户输入

python交互-用户输入,使用input作为输入: 实例代码如下:#密文模块import getpassa= input("name:")b=int(input('age:'))# password = getpass.getpass("password:") 在shell 端才有效果print(str(type(a))+ '-------'+str(type(b)))#...

2019-05-07 22:56:38 989

原创 Spark DataFrame 相关函数汇总

DataFrame 的函数Action 操作1、collect() ,返回值是一个数组,返回dataframe集合所有的行2、collectAsList() 返回值是一个java类型的数组,返回dataframe集合所有的行3、count() 返回一个number类型的,返回dataframe集合的行数4、describe(cols: String*) 返回一个通过数学计算的类表...

2019-04-30 14:28:14 2382

原创 正则表达式

表达式全集字符 描述 \ 将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。 ^ 匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配“\n”或“\r”之后的位置。 $ 匹配输入字符串的结束位置...

2019-04-30 11:37:42 408

原创 dokuwiki安装&插件&主题设置

最近部门考虑搭建一个集成人员权限管理,媒体文件共享,版本可追朔,修改等记录等功能的知识&文件共享平台,最开始考虑用svn,但是文件的每次提交和更新太过繁琐,并且每次更新需要下载到本地才能看,所以考虑搭建wiki系统,最终通过了解,选择了dokuwiki,他是一个开源系统,搭载快捷方便,插件满足日常基本需求,主题也比较清晰简单。下面便是所有的搭建&使用:详细的操作安装等,可参考:ht...

2019-04-26 00:40:13 8265

原创 kafka API操作topic

kafka 版本:2.1.0具体更多的明细API用法见官网:kafka官网APIpom信息:<dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.11</artifactId> <vers...

2019-01-05 20:27:08 3230 2

原创 kafka-shell操作

创建topic:bin/kafka-topics.sh --create --zookeeper zk1:2181,zk2:2181 --replication-factor 2 --partitions 1 --topic testreplication:数据保存副本数量,分布式文件容错partitions:kafka主题的分区数量,对应消费者的消费并发读取数据数量查看topic:...

2018-12-06 20:01:03 254

原创 java scala混合编程

需要在pom里面加入:依赖包: &lt;dependency&gt; &lt;groupId&gt;org.scala-lang&lt;/groupId&gt; &lt;artifactId&gt;scala-library&lt;/artifactId&gt; &lt;version&gt;2.11.12&lt;/version&gt; &lt;scope&amp

2018-12-04 21:18:07 847

原创 Spark-Streaming 整合 Kafka Integration Guide设置说明

创建streaming+kafka数据源:官方链接public static void main(String[] args) { jssc = SparkUtil.initContext(); //kafka参数设置 Map&lt;String, Object&gt; kafkaParams = new HashMap&lt;&gt;();...

2018-12-02 14:51:07 335

原创 ES6.4.1环境搭建

ES的概述就不说实时了,他的功能强大,做检索,数据查询,日志分析,文件信息存储,实时数据存取等。。。。。 A.准备工作:1.java环境 1.8 版本                 2.elasticSearch6.4.1安装包 B.先单台解压完后,修改配置文件:vim config/elasticsearch.yml  文件C.设置完成后,将ES目录分发各个节点,并...

2018-11-06 20:28:39 507

转载 SQL常用函数集锦

转载自:http://www.cnblogs.com/dreamof/archive/2009/02/02/1382487.html一、字符转换函数1、ASCII()返回字符表达式最左端字符的ASCII 码值。在ASCII()函数中,纯数字的字符串可不用‘’括起来,但含其它字符的字符串必须用‘’括起来使用,否则会出错。2、CHAR()将ASCII 码转换为字符。如果没有输入0 ~ 25...

2018-10-09 09:12:36 1164

原创 mysql优化(硬件)

2018-10-09 09:08:55 147

转载 Spark中cache和persist的作用以及存储级别

Spark有几种持久化级别如下(参考自博客):1.MEMORY_ONLY使用未序列化的Java对象格式,将数据保存在内存中。如果内存不够存放所有的数据,则数据可能就不会进行持久化。那么下次对这个RDD执行算子操作时,那些没有被持久化的数据,需要从源头处重新计算一遍。这是默认的持久化策略,使用cache()方法时,实际就是使用的这种持久化策略。2.MEMORY_AND_DISK使用未...

2018-08-31 11:00:45 436

原创 Hive使用常见问题&&优化

1)内存溢出map阶段解决:一般存在MapJoin,设置参数set hive.auto.convert.join = false转成reduce端的Common Join。shuffle阶段解决:减少每个reduce处理的数据量,调整参数:hive.exec.reducers.bytes.per.reducer,默认300000000。或调整放在内存里的最大片段所占百分比(set mapr...

2018-08-27 22:24:30 18412

转载 SPARK 学习资源汇总(1)

1. 书籍,在线文档Learning Spark Advanced.Analytics.with.Spark Mastering Apache Spark Official Guide Spark Guide by Cloudera2. 网站official site user mailing list spark channel on youtube spark summ...

2018-08-14 10:22:03 668

转载 hive较为全面总结

转载自:https://blog.csdn.net/haojun186/article/details/79775651.  HIVE结构Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟...

2018-08-11 17:08:55 5185

原创 Spark shuffle性能优化

详细参见官方文档:http://spark.apache.org/docs/2.1.0/configuration.html1.spark.shuffle.consolidateFiles:是否开启shuffle block file的合并,默认为false  (2.x废弃)----&gt;数据在进行shuffle的时候,如果没有开启这个参数,那么就会从每个节点上的每个task上取拉去数据...

2018-08-07 23:10:59 435

原创 Hive使用常见问题

1)内存溢出map阶段解决:一般存在MapJoin,设置参数set hive.auto.convert.join = false转成reduce端的Common Join。shuffle阶段解决:增加reduce数(set mapreduce.job.reduces=xxx)或调整放在内存里的最大片段所占百分比(set mapreduce.reduce.shuffle.memory.limit.p...

2018-07-11 17:57:25 3495 2

原创 HIVE基础表操作

一,建表&amp;修改表(DDL)CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name          [(col_name data_type [COMMENT col_comment], ...)]          [COMMENT table_comment]          [PARTITIONED BY (col_name ...

2018-07-11 16:41:54 1212

原创 HIVE使用优化总结

Hive使用注意点(1)尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表加上分区判断过滤不需要处理的数据。(2)分区表关联在on条件上加上分区判断,否则会扫全表。(3)避免一个SQL包含复杂逻辑,可以借助中间表来完成复杂的逻辑。(4)建议使用外部表,防止误删表时删除数据;对于中间表可使用内部表的方式。splitsize大小--切片大小( mapred.max.split.size 和mapre...

2018-07-11 16:21:40 209

原创 SCALA 基础操作篇7

12.函数式编程之集合操作1、Scala的集合体系结构2、List3、LinkedList4、Set5、集合的函数式编程6、函数式编程综合案例:统计多个文本内的单词总数 Scala的集合体系结构 Scala中的集合体系主要包括:Iterable、Seq、Set、Map。其中Iterable是所有集合trait的根trai。这个结构与Java的集合体系非常相似。 Scala中的集合是分成可变和不可变...

2018-07-10 23:55:25 444

转载 SCALA 基础操作篇6

11.Scala编程详解:函数式编程1、将函数赋值给变量2、匿名函数3、高阶函数4、高阶函数的类型推断5、Scala的常用高阶函数6、闭包7、SAM转换8、Currying函数9、return将函数赋值给变量 Scala中的函数是一等公民,可以独立定义,独立存在,而且可以直接将函数作为值赋值给变量 Scala的语法规定,将函数赋值给变量时,必须在函数后面加上空格和下划线def sayHello(n...

2018-07-10 01:11:48 342

转载 SCALA 基础操作篇5

10.面向对象编程之Trait1、trait基础知识  1-1 将trait作为接口使用  1-2 在trait中定义具体方法  1-3 在trait中定义具体字段  1-4 在trait中定义抽象字段2、trait高级知识  2-1 为实例对象混入trait  2-2 trait调用链  2-3 在trait中覆盖抽象方法  2-4 混合使用trait的具体方法和抽象方法  2-5 trait的...

2018-07-07 16:27:20 239

转载 SCALA 基础操作篇4

8.面向对象编程之继承extends Scala中,让子类继承父类,与Java一样,也是使用extends关键字 继承就代表,子类可以从父类继承父类的field和method;然后子类可以在自己内部放入父类所没有,子类特有的field和method;使用继承可以有效复用代码 子类可以覆盖父类的field和method;但是如果父类用final修饰,field和method用final修饰,则该类是...

2018-07-07 16:06:49 548

转载 SCALA 基础操作篇3

8.面向对象编程之对象object object,相当于class的单个实例,通常在里面放一些静态的field或者method 第一次调用object的方法时,就会执行object的constructor,也就是object内部不在method中的代码;但是object不能定义接受参数的constructor 注意,object的constructor只会在其第一次被调用时执行一次,以后再次调用就...

2018-07-07 15:18:41 198

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除