流风雨情-CSDN博客

原创 Hive导入导出方式

Hive中追加导入数据的4种方式是什么？请写出简要语法从本地导入： load data local inpath ‘/home/1.txt’ (overwrite)into table student;从Hdfs导入： load data inpath ‘/user/hive/warehouse/1.txt’ (overwrite)into table student;查询导入： cr...

2020-03-04 15:20:38 267

原创 Hive 分区和分桶的区别

背景Hive使用select语句进行查询的时候一般会扫描整个表内容，会消耗很多时间做没必要的工作。Hive可以在创建表的时候指定分区空间，这样在做查询的时候就可以很好的提高查询的效率。分区: 在HDFS上的表现形式是一个目录，分桶: 在HDFS上的表现形式是一个单独的文件分区：Hive的分区使用HDFS的子目录功能实现。每一个子目录包含了分区对应的列名和每一列的值Hive的分区方...

2020-03-04 13:10:10 698

原创 Hive 随机取样-抽样查询

背景在大规模数据量的数据分析及建模任务中，往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源，因此一般情况下只需要抽取一小部分数据进行分析及建模操作Hive提供了数据取样（SAMPLING）的功能，能够根据一定的规则进行数据抽样，目前支持数据块抽样，分桶抽样和随机抽样，具体如下所示：随机抽样（rand()函数）使用rand()函数进行随机抽样，limit关键字限制抽样返回的数据，...

2020-03-03 18:44:11 8904

原创 git查看远程仓库地址

/usr/local/Homebrew> git:(stable) git remote -vorigin https://github.com/Homebrew/brew (fetch)origin https://github.com/Homebrew/brew (push)git remot 相关命令➜ /usr/local/Homebrew> git:(stable...

2020-03-03 17:54:42 2132

原创 Mac os command line: wget: command not found

使用wget 命令提示sudo: wget: command not found说明系统未安装过wget

2020-03-03 17:30:08 11823 2

原创 Hive 实现分组后随机取N条数据

hive取随机的数据，可以使用rand()函数，用rand()对数据排序，取topN如果要用到分组取随机数，比如每个班级随机取10人，针对这种每个分组取topN的情况，可以使用row_number() over(partition by fieldx order by rand()) as rnselect id,class_idfrom(select id,class_id,row_...

2020-03-03 16:35:02 8296

原创 Mac上安装MySQL后zsh: command not found: mysql

cd /usr/local/binln -fs /usr/local/mysql/bin/mysql mysql或者将 /usr/local/mysql/bin/mysql配到环境变量里 .zshrc文件

2020-02-09 11:47:06 3262

原创 idea 类文件头模版

/** * @ClassName: ${NAME} * @Description: TODO * @Create by: ${USER} * @Date: ${DATE} ${TIME} */效果package org.myorg.quickstart.course02;/** * @ClassName: BatchWCJavaApp * @Description: ...

2020-02-07 15:01:53 1609

原创 kafka命令

Kafka常用命令# 启动zookeeper nohup bin/zookeeper-server-start.sh config/zookeeper.properties.&# 启动servernohup bin/kafka-server-start.sh sonfig/server.properties&# 查看topicbin/kafka-topics.sh-li...

2020-02-06 23:25:32 134

原创 flink 快速创建项目 bash

在终端下执行然后idea 导入curl https://flink.apache.org/q/quickstart.sh | bash

2020-02-06 23:08:38 222

原创 Hadoop3.0新特性

端口的变化Hadoop3.0中namenode的默认端口配置发生变化：从50070改为9870Resource Manager: http://localhost:9870JobTracker: http://localhost:8088Specific Node Information: http://localhost:8042...

2020-02-01 23:08:51 186

原创 Hadoop中的jobhistory配置与启动停止

Hadoop中的jobhistory配置与启动停止jobhistory配置在yarn-site.xml中添加<property> <name>yarn.log-aggregation-enable</name> <value>true</value></property&g...

2020-02-01 20:54:52 1182

原创 pycharm 设置文件头时间作者等信息

# -*- encoding: utf-8 -*-"""@File : ${NAME}.py@Time : ${DATE} ${TIME}@Author : XXX@Email : XXXX@XXX.com@Software: ${PRODUCT_NAME}"""

2020-01-27 20:52:14 760

原创 centos 网卡配置

IPADDR=192.168.206.253NETMASH=255.255.255.0PREFIX=24IPV6_PRIVACY=noDNS1=10.0.0.04GATEWAY=192.168.206.2BROWSER_ONLY="no"BOOTPROTO="static"DEFROUTE="yes"IPV4_FAILURE_FATAL="no"IPV6INIT="yes"...

2020-01-08 17:26:55 157

转载 Anaconda3启动ipython的几种方式

https://blog.51cto.com/12831900/2306983

2020-01-02 21:36:13 2358

原创 conda使用

更新pythonconda update python 更新anacondaconda update anaconda查看已经安装的packagesconda list查看某个指定环境的已安装包conda list -n base查找package信息conda search numpy安装packageconda install -n...

2020-01-02 16:32:28 193

原创 RemoveError: 'requests' is a dependency of conda and cannot be removed from conda's operating enviro

这个问题很简单，就是conda 的版本太旧了。有些pip安装的包有点小问题解决方式也很简单，升级conda就行conda update conda然后再进行相关操作就行ps，pip还经常提醒你要升级pip，这个conda从来都不提醒，还得遇到问题了百度才知道...

2020-01-02 15:35:30 7757 3

原创 org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /user/admin/grep-temp-610649

org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /user/admin/grep-temp-610649987. Name node is in safe mode.原因是namenode处在安全模式下不能删除执行：hdfs dfsadmin -safemode leavehadoop默...

2020-01-01 16:43:33 524

原创巨坑：hadoop3.0 slaves改为works

adoop3.0以后slaves更名为workers同时还有端口号的修改

2020-01-01 16:03:30 1975 1

原创错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster

yarn执行MapReduce任务时，找不到主类导致的[2019-12-31 20:02:59.464]Container exited with a non-zero exit code 1. Error file: prelaunch.err. Last 4096 bytes of prelaunch.err : Last 4096 bytes of stderr : 错误: 找不到或无...

2019-12-31 20:27:18 8907 6

原创 sum() over(partition by order by row between ... )

原始数据SELECT NAME, p_date, cost, sum(cost) over() AS sample1, --所有行相加 sum(cost) over(PARTITION BY NAME) AS sample2,--按name分组，组内所有行相加 sum(cost) over(PARTITION BY NAME...

2019-12-20 16:36:17 4649 1

原创 explode函数的局限性

explode函数的局限性不能关联原有的表中的其他字段。不能与group by、cluster by、distribute by、sort by联用。不能进行UDTF嵌套。不允许选择其他表达式。常常和lateral view 结合使用...

2019-12-20 12:20:26 328

原创 springmvc和springboot的区别

springmvc和springboot的区别Spring 框架就像一个家族，有众多衍生产品例如 boot、security、jpa等等。但他们的基础都是Spring 的 ioc和 aop ioc 提供了依赖注入的容器 aop ，解决了面向横切面的编程，然后在此两者的基础上实现了其他延伸产品的高级功能。Spring MVC是基于 Servlet 的一个 MVC 框架主要解决 WEB 开发的问题...

2019-12-14 12:23:12 348

原创 Hive面试总结

order by，sort by，distribute by，cluster by的区别一：order byorder by会对输入做全局排序，因此只有一个Reducer(多个Reducer无法保证全局有序)，然而只有一个Reducer，会导致当输入规模较大时，消耗较长的计算时间。set hive.mapred.mode默认为nonstrict，在strict模式下使用order by必...

2019-12-14 11:42:34 151

原创 Hive分桶

SET hive.enforce.bucketing=true; ①INSERT (INTO|OVERWRITE) TABLE <bucketed_table> SELECT <select_statement>[SORT BY <sort_key> [ASC|DESC], [<sort_key> [ASC|DESC], ...]]; ②...

2019-12-09 09:38:24 116

原创 HashMap源码笔记

//默认的初始化容量为16static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;//最大的容量，容量的值必须是2的幂并且小于最大的容量，最大值为2的30次方static final int MAXIMUM_CAPACITY = 1 << 30;//加载因子默认值为0.75static final float DE...

2019-12-07 09:09:13 127

原创 mysql page 大小16k

mysql> show global variables like '%page%';+--------------------------------------+-----------+| Variable_name | Value |+--------------------------------------+-------...

2019-12-05 22:09:58 6214

原创 Hive批量删除一段时间分区&&动态分区更新数据

alter table dm.dm_call_gateway_bill_time_detail drop partition(dt >="20191101",dt <='20191130')

2019-12-05 11:29:22 2952

原创 Hive优化

首先说下优化的点，从哪些方面着手：主要是SQL不同写法，还有有就是对Hadoop 、MapReduce、HDFS的理解，调整相应的参数，以下结合我工作中的使用和个人的理解整理的，个人水平有限，欢迎指正，共同学习。SQL 会用explain队列设置本地模式和并行模式设置maper和reducer的个数JVM重用索引动态分区调整:静态分区和动态分区H...

2019-12-04 21:44:50 122

原创 Mac 下设置文件夹的隐藏和显示

# 显示全部文件defaults write com.apple.finder AppleShowAllFiles -bool trueosascript -e 'tell application "Finder" to quit'# 不显示全部文件defaults write com.apple.finder AppleShowAllFiles -bool falseosascrip...

2019-12-03 23:00:39 116

原创 shell循环打印

#!/usr/bin/env bashstart="$1"end="$2"while [ ${start} -le ${end} ]do echo "${start}" start=$((${start}+1))donewhile [ ${start} -le ${end} ];do echo "${start}" start=$((${start}+1))do...

2019-12-03 22:17:22 1703

原创 linux查看目录占用空间大小

查看当前目录下各个目录大小容量dudu 命令-H -- follow symlinks on the command line-I -- ignore files/directories matching specified mask-L -- follow all symlinks-P -- do not follow symlinks (default)-a -- rep...

2019-12-02 23:14:53 292

原创 HiveSQL数据笔试题

题目一：计算平台的每一个用户发过多少朋友圈、获得多少点赞已知，数据如下：T1：10万行数据uid(用户id)log_id(日记id)uid1log_id1uid1log_id2uid2log_id3……T2：1000万行数据（注：没有被点赞的日记此表不做记录）log_id(日记id)like_uid(点赞的用户id)l...

2019-12-02 22:45:03 1584 1

原创 AttributeError: 'module' object has no attribute 'X509_up_ref'

在Mac上给python2.7安装pip时报 AttributeError: ‘module’ object has no attribute ‘X509_up_ref’解决办法卸载再重装pyOpenSSLpip uninstall pyOpenSSLpip install pyOpenSSL如果有多个版本的python 一定要区分好python2和python3sudo...

2019-11-28 15:57:18 287

原创 MacOS python2 和python3同时有pip 的情况-问题记录

注意事项如果 Python2 和 Python3 同时有 pip，则使用方法如下：Python2：python2 -m pip install XXXPython3:python3 -m pip install XXX不然会安装包的时候安装到不同的python版本里➜ /Users/liuzhiwei> pip --version # 查看是否安装pippip 19...

2019-11-28 15:45:45 1195

原创 Impala和Hive的关系

Impala和Hive的关系

2019-11-27 22:45:47 193

原创 Linux目录

2019-11-27 22:15:03 89

原创应对高并发的正确处理思路

应对高并发的正确处理思路

2019-11-27 09:19:59 323 1

原创 python3操作MySQL数据库报错ImportError: No module named MySQLdb

这里先说明python2和python3使用的数据库包是不同的：python2 使用MySQLdb库， pip install mysqlclient进行安装，连接MySQL库时import MySQLdb即可；python3改用 pymysql 库，使用pip install pymysql进行安装，使用时直接导入import pymysql。若报错ImportError: No modul...

2019-11-22 12:41:53 235

原创 varchar最大长度

MySQL5.0.3之前varchar(n)这里的n表示字节数MySQL5.0.3之后varchar(n)这里的n表示字符数，比如varchar（200），不管是英文还是中文都可以存放200个varchar最大长度可以是多少根据字符集，字符类型若为gbk，每个字符占用2个字节，最大长度不能超过65535/2 =32766；字符类型若为utf8，每个字符最多占用3个字节，最大长度不能...

2019-11-22 11:52:41 9677

NTFS_for_Mac.dmg

### 背景 - 之前在公司的mbp上装了个破解版的，后来升级了10.15发现不能用了 - 最近买了块希捷的移动硬盘，说兼容Windows和Mac，支持NTFS 详情请看链接 https://shimo.im/docs/rCqhYyVhdqXKj63j/ 《NTFS_For_Mac_10.15_希捷官网正版永久免费》，可复制链接后用石墨文档 App 或小程序打开

2019-11-03

java并发编程实战pdf及源码

2017-07-12

jsp+servlet+mysql+购物商城项目代码下载

jsp+servlet+mysql+购物商城

2017-06-27

图解机器学习

2017-06-27

如何变得有思想阮一峰博客文集_PDF电子书下载带书签目录高清完整版.pdf

2017-06-25

json-lib-2.4-jdk15.jar所需全部JAR包

2017-06-23

23种JAVA设计模式和15种J2EE设计模式-java学习的精髓

2017-06-22

黑客与画家中文版

黑客与画家

2017-06-22

深入浅出MyBatis技术原理与实战

随着大数据时代的到来，Java 持久层框架MyBatis 已经成为越来越多企业的选择。遗憾的是，时至今日国内依然没有一本讨论MyBatis 的书，这增加了初学者的学习难度，初学者往往只能基于零星的案例来学习MyBatis，无法系统地掌握MyBatis，更不用说精通了。《深入浅出MyBatis 技术原理与实战》是笔者通过大量实践和研究源码后创作而成的，是国内系统介绍MyBatis 著作的先河。, 《深入浅出MyBatis技术原理与实战》分为3 个部分，依次介绍了MyBatis 的基础应用、原理及插件开发、实践应用，使读者能够由浅入深、循序渐进地掌握MyBatis 技术。首先，《深入浅出MyBatis技术原理与实战》在官方API 的基础上完善了许多重要的论述和实例，并且给出了实操建议，帮助读者正确掌握MyBatis。其次，《深入浅出MyBatis技术原理与实战》详细讲述了MyBatis 的内部运行原理，并全面讨论了插件的开发。最后，本着学以致用的原则，笔者阐述了MyBatis-Spring 项目和一些MyBatis 开发常见的实例，使读者能够学得会，用得好。, 《深入浅出MyBatis技术原理与实战》不是一本味同嚼蜡的理论专著，而是一本MyBatis 的实践指南，无论你是Java 程序员、MyBatis开发者，还是Java 持久层框架的研究者，你都能从本书中收获知识。

2017-06-22

JAVA程序员面试宝典第4版(带书签高清扫描版)欧立奇

2017-06-22

[啊哈！算法].啊哈磊.扫描版

[啊哈！算法].啊哈磊

2017-06-22

算法的乐趣.pdf

2017-06-18

HBase权威指南

2017-06-18

JDK1.8 API 中文谷歌翻译 java帮助文档1.8 google翻译

2017-06-18

TortoiseSVN-1.9.5.27581-x64-svn-1.9.5 中文语言包（64位）

2017-06-18

算法图解图灵

算法图解

2017-06-18

图解性能优化

2017-06-17

网络是怎样连接的_户根勤

2017-06-17

计算机程序设计艺术（第3卷）

2017-06-17

垃圾回收的算法与实现高清

垃圾回收的算法与实现

2017-06-17

图解设计模式图灵高清完整.pdf版

图解设计模式

2017-06-17

《Redis设计与实现》.(黄健宏).[PDF]

2017-06-17

分布式服务框架原理与实践_李林锋著完整版

2017-06-17

redis实战完成版

redis实战

2017-06-17

写给大忙人看的Java SE 8

2017-06-17

pro git book

什么是版本控制？我为什么要关心它呢？版本控制是一种记录一个或若干文件内容变化，以便将来查阅特定版本修订情况的系统。在本书所展示的例子中，我们仅对保存着软件源代码的文本文件作版本控制管理，但实际上，你可以对任何类型的文件进行版本控制。如果你是位图形或网页设计师，可能会需要保存某一幅图片或页面布局文件的所有修订版本（这或许是你非常渴望拥有的功能）。采用版本控制系统（VCS）是个明智的选择。有了它你就可以将某个文件回溯到之前的状态，甚至将整个项目都回退到过去某个时间点的状态。你可以比较文件的变化细节，查出最后是谁修改了哪个地方，从而找出导致怪异问题出现的原因，又是谁在何时报告了某个功能缺陷等等。使用版本控制系统通常还意味着，就算你乱来一气把整个项目中的文件改的改删的删，你也照样可以轻松恢复到原先的样子。但额外增加的工作量却微乎其微。

2017-02-26

图解HTTP上野宣

图灵设计从书

2016-12-02

GitHub入门与实践.pdf 高清pdf

第 1 章：欢迎来到 GitHub 的世界讲解 GitHub 是什么，以及有哪些革新之处。在开源软件的世界中， GitHub 为开发者带来了革命性的社会化编程概念。在这里我们将会接触这一概念，并对其带来的优势与功能进行讲解。第 2 章：Git 的导入要使用 GitHub，离不开 Git 这一版本管理系统。本章将深入介绍关于 Git 的知识，加深各位对 Git 的理解，同时说明实际操作的相关流程。第 3 章：使用 GitHub 的前期准备使用 GitHub 需要开设账户（免费），因此我们将按照顺序为您讲解正式使用前需要进行的一系列设置。另外，本章还会讲解包括操作示例在内的，实际在 GitHub 上创建仓库并发布代码的相关流程。

2016-11-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

NTFS_for_Mac.dmg

java并发编程实战pdf及源码

jsp+servlet+mysql+购物商城项目代码 下载

图解机器学习

如何变得有思想 阮一峰博客文集_PDF电子书下载 带书签目录 高清完整版.pdf

json-lib-2.4-jdk15.jar所需全部JAR包

23种JAVA设计模式和15种J2EE设计模式-java学习的精髓

黑客与画家中文版

深入浅出MyBatis技术原理与实战

JAVA程序员面试宝典 第4版(带书签 高清扫描版)欧立奇

[啊哈！算法].啊哈磊.扫描版

算法的乐趣.pdf

HBase权威指南

JDK1.8 API 中文 谷歌翻译 java帮助文档1.8 google翻译

TortoiseSVN-1.9.5.27581-x64-svn-1.9.5 中文语言包（64位）

算法图解图灵

图解性能优化

网络是怎样连接的_户根勤

计算机程序设计艺术（第3卷）

垃圾回收的算法与实现 高清

图解设计模式图灵 高清完整.pdf版

《Redis设计与实现》.(黄健宏).[PDF]

分布式服务框架原理与实践_李林锋著 完整版

redis实战完成版

写给大忙人看的Java SE 8

pro git book

图解HTTP上野宣

GitHub入门与实践.pdf 高清pdf

HTML5+jQuery制作温馨浪漫爱心表白动画特效

基于struts2 的书籍信息管理系统

servlet 中文API

空空如也

jsp+servlet+mysql+购物商城项目代码下载

如何变得有思想阮一峰博客文集_PDF电子书下载带书签目录高清完整版.pdf

JAVA程序员面试宝典第4版(带书签高清扫描版)欧立奇

JDK1.8 API 中文谷歌翻译 java帮助文档1.8 google翻译

垃圾回收的算法与实现高清

图解设计模式图灵高清完整.pdf版

分布式服务框架原理与实践_李林锋著完整版