- 博客(294)
- 资源 (40)
- 收藏
- 关注
原创 MySQL遇见Expression this is incompatible with sql_mode=only_full_group_by
当在查这个sql的时候SELECT a.*, count(b.id)FROM stu aLEFT JOIN stu b ON a.class = b.classAND a.score < b.scoreGROUP BY a.idExpression #2 of SELECT list is not in GROUP BY clause and containsnona...
2019-11-20 14:04:14 266
原创 mac mysql 安装启动及 my.cnf文件设置
启动MySQL服务sudo /usr/local/mysql/support-files/mysql.server start停止MySQL服务sudo /usr/local/mysql/support-files/mysql.server stop重启MySQL服务sudo /usr/local/mysql/support-files/mysql.server rest...
2019-11-18 23:20:05 931
原创 MySQL使用mysqldump命令导入导出数据
MySQL使用mysqldump命令导入导出数据1. 从数据库导出数据库或表文件:都是在shell下,不是在mysql下,不登陆mysqlmysqldump -u用戶名 -p密码 -d 数据库名 表名 > 脚本名;导出整个数据库结构和数据mysqldump -h localhost -uroot -p123456 database > e:\dump.sql导出单个数...
2019-11-18 22:05:20 1104
原创 LeetCode-824-山羊拉丁文
LeetCode-824-山羊拉丁文给定一个由空格分割单词的句子 S。每个单词只包含大写或小写字母。我们要将句子转换为 “Goat Latin”(一种类似于 猪拉丁文 - Pig Latin 的虚构语言)。山羊拉丁文的规则如下:如果单词以元音开头(a, e, i, o, u),在单词后添加"ma"。例如,单词"apple"变为"applema"。如果单词以辅音字母开头(即非元音...
2019-11-18 18:46:17 108
原创 Git全局配置和单个仓库的用户名邮箱配置
Git全局配置和单个仓库的用户名邮箱配置在学习Git的时候,都是使用全局的配置 就是带上 --global 参数在用户根目录下git config --global user.name "yourName"git config --global user.email "yourEmail"# 查看所有的配置git config --list# 查看某个配置,显示的全...
2019-11-18 14:21:21 1945
原创 Hive数据倾斜问题
数据倾斜的现象:简单来说,就是一个reduce累死,其他reduce闲死用Hive算数据的时候reduce阶段卡在99.99%用SparkStreaming做实时算法时候,一直会有executor出现OOM的错误,但是其余的executor内存使用率却很低。各种container报错OOM读写的数据量极大,至少远远超过其它正常的reduce ,伴随着数据倾斜,会出现任务被kill等...
2019-11-17 14:54:54 373
原创 excel 将毫秒时间格式转化为 年月日时分秒
首先将数据转化为文本或者数字格式将距离1900年1月1日的毫秒数转化为日期=TEXT((INT(E4/1000)+8*3600)/86400+70*365+19,"yyyy-MM-dd hh:mm:ss")UTC时间 和GMT时间北京时间(UTC +08)= 格林威治时间(UTC +00)+8个小时=TEXT((INT(F4/1000)+8*3600)/86400,"yy...
2019-11-15 21:33:00 15760
原创 Java volatile关键字理解及延伸
说来惭愧,学了Java这么久了,对volatile,synchronized、final 等基础知识理解不深刻!还是要对基本的知识深入研究理解,多练,多练,多练。重要的话说三遍!!!看看大佬写的文章,清晰明了!volatile关键字的作用、原理JMM(Java Memory Model)是Java内存模型,不是JVM内存结构,还有Java对象模型,这都是不同概念JVM内存结构...
2019-11-15 12:51:28 117
原创 ELK
ELK是Elasticsearch、Logstash、Kibana的简称,这三者是核心套件,但并非全部。Elasticsearch是实时全文搜索和分析引擎,提供搜集、分析、存储数据三大功能;是一套开放REST和JAVA API等结构提供高效搜索功能,可扩展的分布式系统。它构建于Apache Lucene搜索引擎库之上。Logstash是一个用来搜集、分析、过滤日志的工具。它支持几乎任何类型的日...
2019-11-14 17:08:19 3392 1
原创 Hive on mr合并小文件
set hive.merge.mapfiles = true;set hive.merge.mapredfiles= true;set hive.merge.size.per.task = 1024000000;set hive.merge.smallfiles.avgsize=1024000000;此设置并不适用于hive on tez
2019-11-14 16:16:08 455
原创 mac修改终端的Shell
查看系统中有几种shells[liuzhiwei@lzw-mac ]Downloads $ cat /etc/shells# List of acceptable shells for chpass(1).# Ftpd will not allow users to connect who are not using# one of these shells./bin/bash/...
2019-07-05 10:44:09 2288
原创 mac 终端修改命令提示符
是否每次打开 Mac 上的终端,看着一长串的提示符让你很不爽。 是否终端字体颜色都一样时,查找上一次的输入命令让你很抓狂。 那么你是时候修改一波命令行提示符了~主要是通过~/.bash_profile文件更改环境变量PS1,修改命令行提示符的显示格式,并展示不同颜色,下面具体介绍。基本知识Mac 中的一个重要的配置文件:/etc/profile: 每个用户登录时都会运行的环境...
2019-07-05 10:34:19 8367 6
原创 多线程和多进程的区别
1.定义程序: 只是一组指令的有序集合,是计算机硬盘上的一些文件,是“死的”进程:具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位,是“活的”线程:是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它...
2018-05-03 16:28:26 8264 4
原创 virtualbox下ubuntu16.04虚拟机网卡配置桥接方式上网
首先,本人被这个坑了好久,浪费了好多时间在网卡配置,不太懂他的原理,然后走了好多弯路。所以在这里记录下: 我之所以选择好virtualbox,是因为它的安装包小,免费,启动快,vmvare workstation是收费的,当然可以破解,vmvare player是免费的,但是还不如virtualbox。但是vmvare性价比还是很高的,毕竟vmvare(中文名:威睿)公司是现在做虚拟机、虚拟服务...
2018-04-19 17:45:21 25576 14
原创 Ubuntu设置防火墙
安装方法 sudo apt-get install ufw 这是有图形界面的(比较简陋),在新立得里搜索gufw试试……使用方法启用 sudo ufw enable sudo ufw default deny 作用:开启了防火墙并随系统启动同时关闭所有外部对本机的访问(本机访问外部正常)。3.关闭 sudo ufw disable 查看防火墙状态 sudo ufw st...
2018-04-15 11:09:01 3261
原创 Ubuntu 16.04下开启Mysql 3306端口远程访问and如何在本地远程连接linux虚拟机上面的mysql
检查远程的虚拟机是否可以ping通过(网卡设置桥接模式,这样可以相互ping通,nat模式只能虚拟机ping通本机,反过来不行)检查虚拟机mysql的端口号是否对外开通mysql -u root -p mysql>show variables like '%port%';关闭Ubuntu的防火墙 开启防火墙 ufw enable 关闭防火墙 ufw disable...
2018-04-15 11:03:32 3178
原创 virtualbox视图快捷键说明
用virtualbox有很长时间了,一直没捉摸透它的视图都有哪几种,今天用到了无缝显示,觉得很好用,顺便做个笔记吧。首先说明一下,virtualbox中默认的host键是右ctrl,调出快捷菜单的组合键是host+home,这个请记住,因为在有的显示模式下是不显示菜单的。‘视图’菜单下共有5个选项,分别是:切换到全屏模式 HOST+F切换到无缝模式 HOST+L切换到自动缩放模...
2018-04-10 19:38:59 4274
原创 安装hive的坑
Hive原则上可以安装在集群上的任何一台机器上面,但是考虑到 master节点的负荷比较大(安装在Master节点。Hive的HQL最终的执行总是会转换为M/D任务的,那么自然要在JobTracker上执行,通过JobTracker交给TaskTracker执行。)我们选择一台机器性能较好的datanode来安装hive。在我们的集群中选择slave003来安装hive。另外,在我们的安装中采用 ...
2018-04-10 11:48:30 741
转载 漫谈千亿级数据优化实践:数据倾斜
0x00 前言数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。郑重声明:话题比较大,技术要求也比较高,笔者尽最大的能力来写出自己的理解,写的不对和不好的地方大家一起交流。有些例子不是特别
2018-03-21 23:09:21 244
转载 控制Hive中Map和reduce的数量
一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划,执行计划以MapReduce的方式执行,那么结合数据和集群的大小,map和reduce的数量就会影响到sql执行的效率。除了要控制Hive生成的Job的数量,也要控制map和reduce的数量。1、map的数量,通常情况下和split的大小有关系,之前写的一篇blog“map和reduce的数量是如何定义...
2018-03-21 23:04:41 1602
原创 hive子查询sql效率优化
今天写了个sql跑了好久,老大过来一看指点下,多用子查询,多用where,然后在join, 提高十多倍,神奇了。想了想,还是老大经验丰富。如果先join,就全表扫描,然后最后where最后筛选,比较耗时。 如果用子查询,就可以利用where过滤不相关的字段,不但增加了map 数量,还减少了数据量。 以下是我的sql 对比:SELECT from_unixtime(cast(a.t...
2018-03-21 19:27:12 7990
原创 hive数据倾斜问题
关于数据倾斜问题的思考(本人小白,不是什么大牛,有什么不对的地方欢迎指正) 背景: 数据倾斜是大数据领域绕经常遇到的问题,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎,这也是大数据处理的一个隐形的bug。最近在用Hadoop跑批的时候经常遇到,一条hivesql要跑好久才能跑完。相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在...
2018-03-20 16:58:45 436
原创 hive sql
(SELECT u.id AS collector_id, u.name AS collector_name, t.name AS area_name FROM ods_collection.fdm_col_admin_user AS u LEFT JOIN (SELECT admin_user_id, mi...
2018-03-19 15:52:09 221
原创 使用hive过程中遇到的小问题
类型转换 cast(t.delay_days_v2 AS int) SELECT cast(t.delay_days_v2 AS int) AS delay_days_v2, t.product_type, count(DISTINCT t.order_id) AS count_order_id, sum(t.principal -t.repai...
2018-03-08 22:07:54 560
转载 为什么是hive
Hive最适合于数据仓库应用程序,使用该应用程序进行相关的静态数据分析,不需要快速响应给出结果,而且数据本身不会频繁变化。Hive不是一个完整的数据库。Hadoop以及HDFS的设计本身约束和局限性地限制了Hive所胜任的工作。其中最大的限制就是Hive不支持记录级别更新、插入、或者删除操作。但是用户可以通过查询生成新表或者将查询结果导入文件中。同时,因为Hadoop是一个面向批处理的系统,而...
2018-03-08 14:08:26 413
转载 Spring入门demo
(尊重劳动成果,转载请注明出处:http://blog.csdn.net/qq_25827845/article/details/53868594冷血之心的博客) 在MyEclipse中如何搭建spring开发环境?本文讲解一个入门级Demo,希望可以帮助更多的初学者。 1、首先新建一个Web项目Test_Spring,如图所示: 2、下载Spring的jar包,版本为spring-framew...
2018-03-06 22:45:24 251
原创 idea中出现 编译报错 javacTask:源发行版1.8 需要目标发行版1.8问题
Error:java: Compilation failed: internal java compiler errorInformation:java: javacTask: 源发行版 1.8 需要目标发行版 1.8Information:java: Errors occurred while compiling module 'algorithm'Information:javac 1....
2018-03-06 22:42:36 2036 1
原创 Linux shell命令关系运算符
以前老是记不住shell命令的运算符,后来看到一篇文章,还来就是英文单词:EQ 就是 EQUAL等于NE 就是 NOT EQUAL不等于 GT 就是 GREATER THAN大于 LT 就是 LESS THAN小于 GE 就是 GREATER THAN OR EQUAL 大于等于 LE 就是 LESS THAN OR EQUAL 小于等于mongodb的关系运...
2018-03-06 22:38:53 1390
原创 hive常用命令
1.建表 create table if not exists sdm_risk_flow(ID string, STATES string, ENABLED string, EVENT_ID string) partitioned by (dt string) row format delimited fields terminated by “\t ” STORED AS ORC⚠️...
2018-03-06 20:05:07 204
原创 Hive技巧-选出某些列其余所有的列
HIVE中select除了某些字段之外的剩余所有字段这是HIVE中查询语句的一个小技巧,一个表字段太多,我们想要除个别字段外的剩余所有字段,全部列出来看起来难受,实际上hive语句可以解决这个问题。Hive 0.13.0之后,select列表支持正则表达式了insert overwrite table tb2 partition(dt=xx, hr=xx) select * from ...
2018-03-06 19:10:18 9663 4
原创 hive脚本的执行方式大致有三种
hive脚本的执行方式大致有三种: 参考hive的用法:usage: hive -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B ...
2018-03-02 11:54:40 9137
原创 Mac使用技巧总结
博主进入一家新公司,公司里使用的全部是mac电脑,博主之前没有用过mac,给一台全新的macbookpro 2017 13寸的,配置是cpu i7 内存 16G 磁盘256G应该是定制版。很是激动啊。讲讲体会吧: 第一次用,不是很适应。但是作为刚入行的程序猿还是很快适应了。 Mac的触控板太好用了,再也不想用鼠标了。原来我使用的是华硕的电脑,觉得华硕的触控版挺好的,真是没用过更好的不知道啊。M...
2018-02-09 15:37:51 293
原创 学习使用superset-大数据报表分析平台
官网的介绍: Apache Superset (incubating) is a modern, enterprise-ready business intelligence web application 这里是官方介绍文档:http://superset.apache.org/看了这么多,结合自己在工作中使用的体会 superset在ETL中数据可视化环节,是一个自助式分析工具,主要...
2018-02-08 18:36:25 3984
原创 idea编译报错 javacTask:源发行版1.8 需要目标发行版1.8
Information:java: javacTask: 源发行版 1.8 需要目标发行版 1.8Information:2018/1/9 22:12 - Compilation completed with 1 error and 0 warnings in 2s 752msError:java: Compilation failed: internal java compiler error
2018-01-09 22:17:11 6922 1
原创 多线程-进程和线程的区别
程序: 只是一组指令的有序集合,是计算机硬盘上的一些文件,是“死的” 进程:具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位,是“活的” 线程:是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位.线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进
2018-01-08 20:49:52 378
原创 git reset 版本回退 git checkout 放弃修改
在学习和熟练使用了git 命令后,接下来就在开发应用中提高自己和团队的开发效率,处理应用场景中的问题。难免会遇到一些问题:比如从昨天晚上提交完后,(一般都是每天晚上做完当天的开发任务提交一次,不然第二天万一忘了昨天写了什么没有提交,还要去回忆昨天的内容),第二天开始coding写了一上午,老大突然这个业务逻辑有问题,或者你发现这样写不对,我的天呐,这个时候还没有git add ,这么行代
2018-01-08 20:27:35 419
原创 git reset 版本回退 git checkout 放弃修改
在学习和熟练使用了git 命令后,接下来就在开发应用中提高自己和团队的开发效率,处理应用场景中的问题。难免会遇到一些问题:比如从昨天晚上提交完后,(一般都是每天晚上做完当天的开发任务提交一次,不然第二天万一忘了昨天写了什么没有提交,还要去回忆昨天的内容),第二天开始coding写了一上午,老大突然这个业务逻辑有问题,或者你发现这样写不对,我的天呐,这个时候还没有git add ,这么行代
2018-01-04 22:04:36 12709
转载 设计模式-结构型-代理模式
代理就是相当于中介,代理对象可以在客户端和目标对象之前起到中介的作用 目标类称为委托类(目标类实现了业务方法),委托给代理类,代理拥有委托类的引用 Subject为主题的接口,代理类和委托类都要实现主题中业务方法,只是代理类中调用还是委托类中实现的方法,再加上和主题业务逻辑不相关的方法,比如处理业务之前要做的权限验证,处理完业务后做的打印日志方法,这样做的目的就是解耦,防止委托类过于臃肿复杂,保
2018-01-02 12:12:00 209
原创 负载均衡策略
常用负载均衡HTTP 重定向 对于HTTP 重定向,你一定不陌生,它可以将 HTTP 请求进行转移,在 Web 开发中我们经常会用它来完成自动跳转,比如用户登录成功后跳转到相应的管理页面。 这种重定向完全由HTTP 定义,并且由HTTP 代理和Web 服务器共同实现。很简单,当HTTP 代理(比如浏览器)向Web服务器请求某个URL后,Web 服务器可以通过HTTP 响应头信息中的Location
2017-12-22 12:21:53 223
NTFS_for_Mac.dmg
2019-11-03
深入浅出MyBatis技术原理与实战
2017-06-22
TortoiseSVN-1.9.5.27581-x64-svn-1.9.5 中文语言包(64位)
2017-06-18
pro git book
2017-02-26
GitHub入门与实践.pdf 高清pdf
2016-11-07
基于struts2 的书籍信息管理系统
2016-10-23
servlet 中文API
2016-10-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人