Windows 可以使用 gitbash 但是cmd不能识别git命令

Windows下安装了git 鼠标右键可以看到 gitbash和GitUI 但是cmd命令行不能执行git命令 原因:没有配置git.exe的路径到PATH环境变量中 解决:在gitbash命令行中执行 where git 找到git.exe的路径,然后配置到环境变量PATH中 重新...

2019-05-16 11:54:47

阅读数 5

评论数 0

python 数据库 % 冲突问题解决

在使用python后台调用 MySQL数据库的时候会有 「%」的关键字冲突问题,比如 用Python后端读取 MySQL 中记录的逻辑,在 impala端执行,其中涉及到模糊匹配的 「%」会报错 解决:SQL逻辑中的单个「%」换为「%%」即可,不错的 trip。 ...

2019-05-15 15:36:34

阅读数 4

评论数 0

pycharm urls 文件没有高亮显示

使用 pycharm 开发 django 项目发现配置urls文件时没有高亮语法显示,看起来相当难受,做下记录 原因:pycharm将urls文件当做普通的文本文件处理了,效果如下 解决:File--->settings---->editor---&...

2019-05-14 16:28:49

阅读数 8

评论数 0

Python学习日志--文件读写

在编程过程中经常需要文件读写,Python的文件读写要比Java简单的多。 打开文件的集中方式: # 1.只读 open("path/filename","r") # 2.只写 open("path/filename",&quo...

2019-04-18 20:54:35

阅读数 9

评论数 0

Python学习日志--面向对象

面向对象的思想是高级语言中最好的特性,使程序的开发更加优美,维护起来更加简洁。 Python中面向对象与Java中的面向对象在特性和功能方面几乎没有区别。 面向对象的特征: 封装性:可以将多个属性和方法(功能)封装,有利于统一维护 继承性:在继承父类之后将拥有父类的属性和方法,简化程序的...

2019-04-18 20:29:05

阅读数 9

评论数 0

Python 缺省参数,可变参数

Python中形参有确定参数,缺省参数,可变参数,关键字参数。具体的使用和区别如下 确定参数:平时最常用的必传确定数量的参数即为确定参数 缺省参数:在调用函数时可以传也可以省去的参数,如果不传将使用默认值 可变参数:可变长度参数 关键字参数:长度可变,但是需要以kv对形式传参 举例: ...

2019-04-16 20:33:39

阅读数 11

评论数 0

Python 列表,字典 常规操作

记录下Python 中 「列表」,「字典」的常规操作,备忘 列表 # 1.定义列表,以中括号声明即列表,无需声明类似List之类的东西 var_name = [E1, E2, E3, E4] # 2.增 var_name.append(E5)#增加单个元素,只是添加的元素在列表的尾部 v...

2019-04-15 20:42:46

阅读数 12

评论数 0

lead窗口函数

lead函数在Impala中可以配合over使用,lead函数有三个参数 lead(property,num,default) 第一个参数「property」标识想查询的列,「num」标识相对于当前行的第num行,第三个参数是默认值。 举例: -- 建表 CREATE TABLE te...

2019-04-11 20:38:48

阅读数 26

评论数 0

hive调优记录

1.设置小文件合并配置参数 set mapred.max.split.size=100000000; set mapred.min.split.size.per.node=100000000; set mapred.min.split.size.per.rack=100000000; 2.限制...

2019-04-01 19:53:59

阅读数 12

评论数 0

Kudu Schema 原则

概述:Schema 设计主要是 Primary Key,Partition Strategy,Column Type 前二者对性能影响明显后者面向业务。 Column Design: Type 支持类型: Boolean,integer,float,double,unixti...

2019-04-01 19:47:23

阅读数 25

评论数 0

KUDU&Impala基本操作

概述:通过 Impala 可是实现 Kudu 的创建数据库,对表的增,删,查,改。 ---------------------------------------- 基本常用操作: --描述表 DESCRIBE tabel_name; --查看分区情况 SHOW PARTITIONS ...

2019-04-01 19:44:29

阅读数 110

评论数 0

关于窗口函数的使用

Hive 窗口函数在计算部分与整体之间的关系中常用到,可以达到简化SQL,减少Hive 执行计划产生的MR数。 实列:1 需求:统计各城市用户在总体的占比 数据结构:「user_city」表中有两个字段「user_name」,「city」,表示用户姓名与所在城市 分析:上述需求中明显需要...

2019-03-30 10:29:31

阅读数 67

评论数 0

Excel数据导入hive

Hive导入Excel数据并不能使用类似一键导入的开关,只能先将数据进行格式转换,hive中简表,load数据的方式。 打开Excel并另存为.txt格式文本文档excel与text转换 上传文件到HDFS 根据excel中的数据结构进行建表,注意结构顺寻要一致 load数据到hive表中...

2019-03-11 17:04:48

阅读数 24

评论数 0

Hive 脚本--转义,引号的使用

在Hive脚本中需要对保留字符进行转义且Hue窗口支持使用单引号与双引号,但是脚本中与Hue中的使用是有差别的 转义字符: 如下SQL,使用Hive中的函数进行字符串分割 select split('hello;hive;sql;hadoop',';')[0] 上述SQL在Hue窗口可...

2019-03-01 16:45:59

阅读数 241

评论数 0

Spark递归读取文件夹 删除HDFS文件

在使用Spark 计算HDFS数据时会遇到整个文件夹文件读取,删除输出路径的需求,特此记录一次 递归读取文件: sc .hadoopConfiguration .setBoolean("mapreduce.input.fileinputformat.input.dir...

2019-03-01 15:51:56

阅读数 193

评论数 0

CDH 5.14安装Spark2服务

由于默认的Spark版本为1.6,开发任务需要Spark2所以记录一次Spark2的安装。 一、JDK1.8 集群的JDK版本升级,Spark2需要JDK1.8来支持 下载 JDK1.8 上传到/usr/share/jdk8文件夹下 每个节点都需要在相同的目录下配置JDK CDH...

2019-02-12 18:52:46

阅读数 140

评论数 0

scala 报错 org/scalacheck/Test$TestCallback 类找不到

背景:需要编写 Scala 单元测试,采用 ScalaTest 框架,代码如下: import org.apache.spark.{SparkConf, SparkContext} import org.scalatest._ class WorldCountTest extends Flat...

2019-02-11 18:10:09

阅读数 96

评论数 0

Kudu Partition Tablet Bucket

kudu中关于分区的概念有三个:partition,tablet,bucket。 概念: 「partition」类似hbase中的「region」也就是将整张表来分片存储管理,是一个逻辑上的概念。 「tablet」是分区中存储数据的最小单位,是物理概念,也就是数据在寻找存储位置的时候最终会落...

2019-01-07 11:38:24

阅读数 83

评论数 0

简单记录Gitlab-CI

CI也就是持续集成,需要自动化实现从更新代码到打包,测试,部署等工作。 Gitlab自带的CI工具,总体思路是为自动执行任务提供服务器,当更新代码等操作发生是自动触发任务,这里执行任务的服务器就是Runner,具体执行的 任务需要进行配置,也就是.gitlab-ci.yml文件。 1.配置Ru...

2018-12-28 10:53:00

阅读数 60

评论数 0

Tez替换MR作为hive的计算引擎

由于MR执行效率问题使用Tez替换MR,记录遇到的问题及解决方案

2018-12-25 20:31:46

阅读数 482

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭