自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 hivesql与MySQL的区别

1、hivesql没有update、insert into类的更新表或插入表的操作。2、hiveSQL特殊字符拼接问题,如分号要先进行八进制的ASCII码转义。MySQL:select concat(key,concat(';',key)) from dual;hivesql:select concat(key,concat('\073',key)) from dual;3、hiv...

2019-10-22 16:04:04 5296

转载 SQL重复记录查询

1、查找表中多余的重复记录,重复记录是根据单个字段(peopleId)来判断select*frompeoplewherepeopleIdin(selectpeopleIdfrompeoplegroupbypeopleIdhavingcount(peopleId)>1)例二:select*fromtesttablewhe...

2019-09-24 10:32:55 129

原创 vim设置多行缩进方法

多行缩进是代码修改经常用到的操作,很多情况下可能想直接在vim编辑器修改,可使用ctrl+v进入visual模式,然后用光标移动等方法选中要缩进的多行代码,shift+‘>’ 向左缩进,‘<’向右缩进,但问题是一般默认缩进8个空格,如果缩进4个空格需修改vim配置文件,添加或修改如下内容:set smartindent set tabstop=4 set s...

2019-08-22 17:53:41 885

原创 HiveSQL日期处理

1、日期函数UNIX时间戳转日期函数:from_unixtime()函数 格式 返回值 说明 from_unixtime from_unixtime(bigint unixtime[, string format]) string 转化UNIX时间戳(从1970-01-01 00:00:00 UTC到指定时间的秒数)到当前时区的时间格式 ...

2019-07-06 15:31:31 3472

原创 pyspark 通过jupyter notebook 本地连接远程服务器

1、远程服务器安装jupyter notebook等2、生成密码。$ ipythonIn [1]: from IPython.lib import passwdIn [2]: passwd()Enter password: #输入远程登陆时的密码(服务器密码)Verify password: #确认密码Out[2]: 'sha1:。。。。。。。。。。。。。。。'3、...

2019-06-05 17:22:45 479

原创 填坑之pyspark在jupyter中运行报错及spark依赖python版本切换等

在ubantu成功安装配置spark等组件后,去pyspark编辑脚本运行,报出错误:Exception: Java gateway process exited before sending the driver its port number。尝试了大神建议的很多方法都没有解决,如配置JAVA_HOME路径、重装Java版本1.8等等,还有人说用anaconda可以完美解决,但懒于下载配置...

2019-06-04 11:06:29 2108

原创 ubantu系统双版本python的jupyter notebook安装及pip超时报错问题

注意事项:ubantu16.04已安装python2.7和python3.5。不需要重复安装。1、查看pip版本:python2 -m pip --versionpython3 -m pip --version若没安装pip,先安装:sudo apt install python3-pip2、双版本升级pip:sudo python2 -m pip install -...

2019-05-31 18:07:09 389

原创 centos6.X升级python3.X方法

1、获取root权限:#su 2、安装Python可能使用的依赖命令:#yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel3、下载安装包并解压:#wget https://www.python.org/ftp/python/3.7.0/Python-3.7....

2019-05-27 11:47:40 450

原创 Linux系统CentOS7系列虚拟机系统安装配置静态ip方法

原来RedHat系列的Linux发行版可以通过setup工具方便的设置静态IP,但是在版本7之后setup工具的功能就逐渐减弱了,所以这时候采用修改配置文件的方式来设置静态IP,方法如下: 网络配置的配置文件在/etc/sysconfig/network-scripts/下,文件名前缀为ifcfg-后面跟的就是网卡的名称,可以通过双TAB键查看然后编辑,也可以使用ifcon...

2019-04-27 11:32:09 257

原创 linux虚拟机安装centOS后,安装VMware Tools 问题总结

关于Linux(CentOS 7)安装及VMware Tools安装网上资源众多,但是对常见问题的总结较少,结合自身经历总结如下:1、输入“cd vmware-tools-distrib/”进入名为“vmware-tools-distrib”的目录,输入“./vmware-install.pl”尝试安装,出现错误“-bash: ./vmware-install.pl: /usr/bin/per...

2019-04-25 14:36:11 1342

原创 计算python脚本运行时间的坑

程序运行时间=cpu时间 + io时间 + 休眠或者等待时间Python程序运行时间大于Python程序CPU时间(time.clock()):1、Python程序CPU计算时间:import datetimeimport timestartTime = time.clock()time.sleep(3)endTime = time.clock()print (endTi...

2019-03-01 15:29:34 362

原创 关于elasticsearch 输出默认限制最多一万条记录的问题

es默认输出最多一万条,因公司数据量较大,需要调高限制数量,查阅相关资料将限制调大后,暂时解决了问题,但是过了几天再查发现又是10000条限制,且看 配置参数已经调大了。研究后发现,已经调大的参数设置是之前的索引,但新建的索引需要重新设置:PUT 索引名称-*/_settings?preserve_existing=true{ "index.max_result_wi...

2019-02-25 09:36:37 11930 2

原创 离散数据特征编码

离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码pandas.get_dummies例如:颜色(Red,Blue,Green)处理函数:get_dummies(data,prefix=None,prefix_sep="_",dummy_na=False,columns=None,drop_fir...

2018-08-16 20:33:53 2177

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除