- 博客(294)
- 资源 (40)
- 收藏
- 关注
原创 Hive导入导出方式
Hive中追加导入数据的4种方式是什么?请写出简要语法从本地导入: load data local inpath ‘/home/1.txt’ (overwrite)into table student;从Hdfs导入: load data inpath ‘/user/hive/warehouse/1.txt’ (overwrite)into table student;查询导入: cr...
2020-03-04 15:20:38 267
原创 Hive 分区 和 分桶 的区别
背景Hive使用select语句进行查询的时候一般会扫描整个表内容,会消耗很多时间做没必要的工作。Hive可以在创建表的时候指定分区空间,这样在做查询的时候就可以很好的提高查询的效率。分区: 在HDFS上的表现形式是一个目录,分桶: 在HDFS上的表现形式是一个单独的文件分区:Hive的分区使用HDFS的子目录功能实现。每一个子目录包含了分区对应的列名和每一列的值Hive的分区方...
2020-03-04 13:10:10 698
原创 Hive 随机取样-抽样查询
背景在大规模数据量的数据分析及建模任务中,往往针对全量数据进行挖掘分析时会十分耗时和占用集群资源,因此一般情况下只需要抽取一小部分数据进行分析及建模操作Hive提供了数据取样(SAMPLING)的功能,能够根据一定的规则进行数据抽样,目前支持数据块抽样,分桶抽样和随机抽样,具体如下所示:随机抽样(rand()函数)使用rand()函数进行随机抽样,limit关键字限制抽样返回的数据,...
2020-03-03 18:44:11 8904
原创 git查看远程仓库地址
/usr/local/Homebrew> git:(stable) git remote -vorigin https://github.com/Homebrew/brew (fetch)origin https://github.com/Homebrew/brew (push)git remot 相关命令➜ /usr/local/Homebrew> git:(stable...
2020-03-03 17:54:42 2132
原创 Mac os command line: wget: command not found
使用wget 命令提示sudo: wget: command not found说明系统未安装过wget
2020-03-03 17:30:08 11823 2
原创 Hive 实现 分组后随机取N条数据
hive取随机的数据,可以使用rand()函数,用rand()对数据排序,取topN如果要用到分组取随机数,比如每个班级随机取10人,针对这种每个分组取topN的情况,可以使用row_number() over(partition by fieldx order by rand()) as rnselect id,class_idfrom(select id,class_id,row_...
2020-03-03 16:35:02 8296
原创 Mac上安装MySQL后zsh: command not found: mysql
cd /usr/local/binln -fs /usr/local/mysql/bin/mysql mysql或者将 /usr/local/mysql/bin/mysql配到环境变量里 .zshrc文件
2020-02-09 11:47:06 3262
原创 idea 类文件头模版
/** * @ClassName: ${NAME} * @Description: TODO * @Create by: ${USER} * @Date: ${DATE} ${TIME} */效果package org.myorg.quickstart.course02;/** * @ClassName: BatchWCJavaApp * @Description: ...
2020-02-07 15:01:53 1609
原创 kafka命令
Kafka常用命令# 启动zookeeper nohup bin/zookeeper-server-start.sh config/zookeeper.properties.&# 启动servernohup bin/kafka-server-start.sh sonfig/server.properties&# 查看topicbin/kafka-topics.sh-li...
2020-02-06 23:25:32 134
原创 flink 快速创建项目 bash
在终端下 执行 然后idea 导入curl https://flink.apache.org/q/quickstart.sh | bash
2020-02-06 23:08:38 222
原创 Hadoop3.0新特性
端口的变化Hadoop3.0中namenode的默认端口配置发生变化:从50070改为9870Resource Manager: http://localhost:9870JobTracker: http://localhost:8088Specific Node Information: http://localhost:8042...
2020-02-01 23:08:51 186
原创 Hadoop中的jobhistory配置与启动停止
Hadoop中的jobhistory配置与启动停止jobhistory配置在yarn-site.xml中添加<!-- 开启日志聚合 --><property> <name>yarn.log-aggregation-enable</name> <value>true</value></property&g...
2020-02-01 20:54:52 1182
原创 pycharm 设置文件头 时间作者等信息
# -*- encoding: utf-8 -*-"""@File : ${NAME}.py@Time : ${DATE} ${TIME}@Author : XXX@Email : XXXX@XXX.com@Software: ${PRODUCT_NAME}"""
2020-01-27 20:52:14 760
原创 centos 网卡配置
IPADDR=192.168.206.253NETMASH=255.255.255.0PREFIX=24IPV6_PRIVACY=noDNS1=10.0.0.04GATEWAY=192.168.206.2BROWSER_ONLY="no"BOOTPROTO="static"DEFROUTE="yes"IPV4_FAILURE_FATAL="no"IPV6INIT="yes"...
2020-01-08 17:26:55 157
原创 conda使用
更新pythonconda update python 更新anacondaconda update anaconda查看已经安装的packagesconda list查看某个指定环境的已安装包conda list -n base查找package信息conda search numpy安装packageconda install -n...
2020-01-02 16:32:28 193
原创 RemoveError: 'requests' is a dependency of conda and cannot be removed from conda's operating enviro
这个问题很简单,就是conda 的版本太旧了。有些pip安装的包有点小问题解决方式也很简单,升级conda就行conda update conda然后再进行相关操作就行ps,pip还经常提醒你要升级pip,这个conda从来都不提醒,还得遇到问题了百度才知道...
2020-01-02 15:35:30 7757 3
原创 org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /user/admin/grep-temp-610649
org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot delete /user/admin/grep-temp-610649987. Name node is in safe mode.原因是namenode处在安全模式下 不能删除执行:hdfs dfsadmin -safemode leavehadoop默...
2020-01-01 16:43:33 524
原创 错误: 找不到或无法加载主类 org.apache.hadoop.mapreduce.v2.app.MRAppMaster
yarn执行MapReduce任务时,找不到主类导致的[2019-12-31 20:02:59.464]Container exited with a non-zero exit code 1. Error file: prelaunch.err. Last 4096 bytes of prelaunch.err : Last 4096 bytes of stderr : 错误: 找不到或无...
2019-12-31 20:27:18 8907 6
原创 sum() over(partition by order by row between ... )
原始数据SELECT NAME, p_date, cost, sum(cost) over() AS sample1, --所有行相加 sum(cost) over(PARTITION BY NAME) AS sample2,--按name分组,组内所有行相加 sum(cost) over(PARTITION BY NAME...
2019-12-20 16:36:17 4649 1
原创 explode函数的局限性
explode函数的局限性不能关联原有的表中的其他字段。不能与group by、cluster by、distribute by、sort by联用。不能进行UDTF嵌套。不允许选择其他表达式。常常和lateral view 结合使用...
2019-12-20 12:20:26 328
原创 springmvc和springboot的区别
springmvc和springboot的区别Spring 框架就像一个家族,有众多衍生产品例如 boot、security、jpa等等。但他们的基础都是Spring 的 ioc和 aop ioc 提供了依赖注入的容器 aop ,解决了面向横切面的编程,然后在此两者的基础上实现了其他延伸产品的高级功能。Spring MVC是基于 Servlet 的一个 MVC 框架 主要解决 WEB 开发的问题...
2019-12-14 12:23:12 348
原创 Hive面试总结
order by,sort by,distribute by,cluster by的区别一:order byorder by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。set hive.mapred.mode默认为nonstrict,在strict模式下使用order by必...
2019-12-14 11:42:34 151
原创 Hive分桶
SET hive.enforce.bucketing=true; ①INSERT (INTO|OVERWRITE) TABLE <bucketed_table> SELECT <select_statement>[SORT BY <sort_key> [ASC|DESC], [<sort_key> [ASC|DESC], ...]]; ②...
2019-12-09 09:38:24 116
原创 HashMap源码笔记
//默认的初始化容量为16static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;//最大的容量,容量的值必须是2的幂并且小于最大的容量,最大值为2的30次方static final int MAXIMUM_CAPACITY = 1 << 30;//加载因子默认值为0.75static final float DE...
2019-12-07 09:09:13 127
原创 mysql page 大小16k
mysql> show global variables like '%page%';+--------------------------------------+-----------+| Variable_name | Value |+--------------------------------------+-------...
2019-12-05 22:09:58 6214
原创 Hive批量删除一段时间分区&&动态分区更新数据
alter table dm.dm_call_gateway_bill_time_detail drop partition(dt >="20191101",dt <='20191130')
2019-12-05 11:29:22 2952
原创 Hive优化
首先说下优化的点,从哪些方面着手:主要是SQL不同写法,还有有就是对Hadoop 、MapReduce、HDFS的理解,调整相应的参数,以下结合我工作中的使用和个人的理解整理的,个人水平有限,欢迎指正,共同学习。SQL 会用explain队列设置本地模式和并行模式设置maper和reducer的个数JVM重用索引动态分区调整:静态分区和动态分区H...
2019-12-04 21:44:50 122
原创 Mac 下设置文件夹的隐藏和显示
# 显示全部文件defaults write com.apple.finder AppleShowAllFiles -bool trueosascript -e 'tell application "Finder" to quit'# 不显示全部文件defaults write com.apple.finder AppleShowAllFiles -bool falseosascrip...
2019-12-03 23:00:39 116
原创 shell循环打印
#!/usr/bin/env bashstart="$1"end="$2"while [ ${start} -le ${end} ]do echo "${start}" start=$((${start}+1))donewhile [ ${start} -le ${end} ];do echo "${start}" start=$((${start}+1))do...
2019-12-03 22:17:22 1703
原创 linux查看目录占用空间大小
查看当前目录下各个目录大小容量dudu 命令-H -- follow symlinks on the command line-I -- ignore files/directories matching specified mask-L -- follow all symlinks-P -- do not follow symlinks (default)-a -- rep...
2019-12-02 23:14:53 292
原创 HiveSQL数据笔试题
题目一:计算平台的每一个用户发过多少朋友圈、获得多少点赞已知,数据如下:T1:10万行数据uid(用户id)log_id(日记id)uid1log_id1uid1log_id2uid2log_id3……T2:1000万行数据(注:没有被点赞的日记此表不做记录)log_id(日记id)like_uid(点赞的用户id)l...
2019-12-02 22:45:03 1584 1
原创 AttributeError: 'module' object has no attribute 'X509_up_ref'
在Mac上给python2.7安装pip时 报 AttributeError: ‘module’ object has no attribute ‘X509_up_ref’解决办法卸载再重装pyOpenSSLpip uninstall pyOpenSSLpip install pyOpenSSL如果有多个版本的python 一定要区分好python2和python3sudo...
2019-11-28 15:57:18 287
原创 MacOS python2 和python3同时有pip 的情况-问题记录
注意事项如果 Python2 和 Python3 同时有 pip,则使用方法如下:Python2:python2 -m pip install XXXPython3:python3 -m pip install XXX不然会安装包的时候安装到不同的python版本里➜ /Users/liuzhiwei> pip --version # 查看是否安装pippip 19...
2019-11-28 15:45:45 1195
原创 python3操作MySQL数据库报错ImportError: No module named MySQLdb
这里先说明python2和python3使用的数据库包是不同的:python2 使用MySQLdb库, pip install mysqlclient进行安装,连接MySQL库时import MySQLdb即可;python3改用 pymysql 库,使用pip install pymysql进行安装,使用时直接导入import pymysql。若报错ImportError: No modul...
2019-11-22 12:41:53 235
原创 varchar最大长度
MySQL5.0.3之前varchar(n)这里的n表示字节数MySQL5.0.3之后varchar(n)这里的n表示字符数,比如varchar(200),不管是英文还是中文都可以存放200个varchar最大长度可以是多少根据字符集,字符类型若为gbk,每个字符占用2个字节,最大长度不能超过65535/2 =32766; 字符类型若为utf8,每个字符最多占用3个字节,最大长度不能...
2019-11-22 11:52:41 9677
NTFS_for_Mac.dmg
2019-11-03
深入浅出MyBatis技术原理与实战
2017-06-22
TortoiseSVN-1.9.5.27581-x64-svn-1.9.5 中文语言包(64位)
2017-06-18
pro git book
2017-02-26
GitHub入门与实践.pdf 高清pdf
2016-11-07
基于struts2 的书籍信息管理系统
2016-10-23
servlet 中文API
2016-10-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人