自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(163)
  • 收藏
  • 关注

转载 CodeWar打怪升级-Python篇

CodeWar打怪升级-Python篇 1.The goal of this exercise is to convert a string to a new string where each character in the new string is"(...

2019-06-12 10:42:00 590

转载 电商数据分析指标体系

电商数据分析指标体系 https://blog.csdn.net/weixin_42619659/article/details/81905586 post...

2019-04-11 21:12:00 241

转载 Excel组合图表快速制作小功能

Excel组合图表快速制作小功能 1. 选中数据区域,插入推荐的图表2. 然后可以选择快速布局小工具进行布局微调选中图表 -> 设计(菜单) -> 快速布局(左边)个人特别喜欢带表格的那个组合图布局,清晰好看...

2019-03-16 11:00:00 273

转载 Hive随机取某几行数据

Hive随机取某几行数据 order by rand() limit 1001. 可用于普通随机筛选2. 也可用于row_number() 等函数的排序里作为随机排序。 ...

2019-01-28 20:13:00 2860

转载 Hive:map字段存储和取用 ( str_to_map函数 )

Hive:map字段存储和取用 ( str_to_map函数 ) str_to_map(字符串参数, 分隔符1, 分隔符2)使用两个分隔符将文本拆分为键值对。分隔符1将文本分成K-V对,分隔符2分割每个K-V对。对于分隔符1默认分隔符是 ',',对于分隔符2...

2018-12-24 14:24:00 7300

转载 Exce 快捷键 tips

Exce 快捷键 tips 1. 填充快捷键ctrl+R 向下填充CTRL+D 向右填充2. 筛选快捷键CTRL+SHIFT+L3. 移动到当前区域的边缘:Ctrl + shift + 方向箭头4. 字符连接:&amp...

2018-12-21 16:01:00 136

转载 sqoop 问题以及 小tips

sqoop 问题以及 小tips 1. Sqoop import 任务里把原来NULL的转化成字符串‘null’了。解决方法:先: alter table ${table_name} SET SERDEPROPERTIES('serialization.nu...

2018-12-21 15:18:00 147

转载 Hive 特殊日期截取 tips

Hive 特殊日期截取 tips 获取当前日期SELECT CURRENT_DATE, CURRENT_TIMESTAMP, from_unixtime(unix_timestamp());上个月1号concat(substr(date_sub('${b...

2018-12-20 16:13:00 1111

转载 Hive实现交叉二维分析的小语句

Hive实现交叉二维分析的小语句 1. 梳理出你要的列和行维度列维度: 每一周行维度: 年级 + 学科 + 班型2. 对数据按周增序进行聚合 (即根据列维度) ,生成listconcat_ws 和 collect_list (collect...

2018-12-18 16:42:00 343

转载 混淆矩阵、准确率、召回率

混淆矩阵、准确率、召回率 https://www.cnblogs.com/Zhi-Z/p/8728168.html posted on 2018-11-22 1...

2018-11-22 10:53:00 356

转载 python 获取中文拼音首字母;判断文件夹是否存在

python 获取中文拼音首字母;判断文件夹是否存在 1.如何获取中文字符串的首字母import pinyin#输入namedef get_pinyin_first_alpha(name): return "".join([i[0] f...

2018-09-19 09:41:00 187

转载 python 修改dataframe的列名

python 修改dataframe的列名 1. 修改全部列名 df.columnsbase_data_model.columns = [u'有效率',u'提交率',u'参与度',u'回放占比',u'主好评率',u'辅好评率',u'是否付费'] ...

2018-09-19 09:34:00 2205

转载 python 如何把小数变成百分数格式

python 如何把小数变成百分数格式 1. 数据样本,valid_rate,homework_rate,inter_rate,playback_rate,zhujiang_good_comment5_rate,fudao_good_comment5_rat...

2018-09-18 17:47:00 3050

转载 如何解决python 图表中文显示乱码问题(matlplotlib 包)

如何解决python 图表中文显示乱码问题(matlplotlib 包) 目前搜到的是,下载一个字体到程序路径,设置成默认字体。https://blog.csdn.net/irene_loong/article/details/68955485#图...

2018-09-11 18:00:00 252

转载 HDFS 常用命令行:

HDFS 常用命令行: 1. 查看各库的存储大小hdfs dfs -du -h /user/hive/warehouse2. 删除HDFS 文件hdfs dfs -rmr 绝对路径名例如:hdfs dfs -rmr /user/hive/war...

2018-07-19 11:55:00 148

转载 Hive表中的NULL值处理

Hive表中的NULL值处理 1 MySQL 到 Hive 表的sqoop任务把 原本的NULL 变成字符串 ‘null’ 了alter table ${table_name} SET SERDEPROPERTIES('serialization.null.fo...

2018-07-10 10:32:00 776

转载 Hive 任务优化 tips

Hive 任务优化 tips 1. 集群任务队列:一般有 root.default, root.online, root.offline, root.spark-thiftserverHue提交的任务一般默认在 default队列如果是紧急任务,可...

2018-07-10 10:27:00 84

转载 Titanic缺失数值处理 & 存活率预测

Titanic缺失数值处理 & 存活率预测 1.kaggle泰坦尼克数据titanic完整下载,原作者良心分享https://download.csdn.net/download/lansui7312/99368402. 缺失值处理...

2018-05-04 17:37:00 160

转载 pandas 存取数据小笔记

pandas 存取数据小笔记 import pandas as pd 1. 读取和保存 csv文件#读df = pd.read_csv(read_file_path, header=0) # 其中read_file_path ...

2018-04-28 16:33:00 82

转载 Hive表种map字段的查询取用

Hive表种map字段的查询取用 建表可以用 map<string,string>查询时可以按照 aaa[bbb], aaa 是map字段名,bbb是其中的参数名,就可以取到这个参数的值了 当参数名bbb是...

2018-04-18 17:07:00 4335

转载 hive 表锁和解锁

hive 表锁和解锁 场景:在执行insert into或insert overwrite任务时,中途手动将程序停掉,会出现卡死情况(无法提交MapReduce),只能执行查询操作,而drop insert操作均不可操作,无论执行多久,都会保持卡死状态临时解...

2018-04-12 11:28:00 1473

转载 jupyter notebook 小笔记

jupyter notebook 小笔记 安装直接按这个步骤了:https://hub.mybinder.org/user/ipython-ipython-in-depth-xj8fraz8/notebooks/binder/Index.ipynb然后...

2018-04-04 21:39:00 133

转载 python 小笔记

python 小笔记 1 删除非空文件夹import shutilshutil.rmtree('c:\\test')print 'ok'## 判断非空删除if os.path.exists('../'+kemu_name+'_data'): #拼...

2017-12-25 20:47:00 54

转载 excel表格如何打斜杠

excel表格如何打斜杠 https://jingyan.baidu.com/article/5bbb5a1b3f471613eba17908.html p...

2017-12-14 10:16:00 269

转载 互联网教育专业术语

互联网教育专业术语 K12 教育: kidgarden twelveth grade 指幼儿园起到十二年级(高三)的基础教育FAQ:frequently asked questions 常见问题解答http://www.tmtpost.com/2913...

2017-11-22 20:18:00 237

转载 hive执行报错:Both left and right aliases encountered in JOIN 's1'

hive执行报错:Both left and right aliases encountered in JOIN 's1' 原因:两个表join的时候,不支持两个表的字段 非相等 操作。可以把不相等条件拿到 where语句中。例如:right J...

2017-11-08 16:08:00 1454

转载 Hive Ntile分析函数学习

Hive Ntile分析函数学习 NTILE(n)用于将分组数据按照顺序切分成n片,返回当前记录所在的切片值NTILE不支持ROWS BETWEEN,比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY cr...

2017-09-19 15:34:00 310

转载 购买类目的概率预测

购买类目的概率预测 posted on 2017-09-19 15:30Suckseedeva 阅读(...) 评论(...) 编辑 收藏 ...

2017-09-19 15:30:00 178

转载 oozie 工作流调试及报错

oozie 工作流调试及报错 1. oozie 调用sql文件的workflow 错误汇总:1)hive2server密码错误。(有时设置可以无密码,有时需要登陆密码,有时是单独的hive2server密码)Connecting to jdbc:hive2...

2017-09-19 14:57:00 564

转载 hadoop/hdfs/yarn 详细命令搬运

hadoop/hdfs/yarn 详细命令搬运 转载自文章http://www.cnblogs.com/davidwang456/p/5074108.html安装完hadoop后,在hadoop的bin目录下有一系列命令:container-ex...

2017-09-19 14:08:00 332

转载 Impala SQL 使用小记

Impala SQL 使用小记 1. impala端创建的表,DROP。hive会自动同步到。但是通过hive DROP时,数据还会在,只是表的元数据没有了。所以完全DROP表,需要impala端的DROP2. impala 不支持 多个count...

2017-09-11 18:26:00 338

转载 hive压缩

hive压缩 1. 常用 rcfile + gzip parquet + snappy2. 压缩比,参考TextFile默认格式,加载速度最快,可以采用Gzip进行压缩,压缩后的文件无法split,即并行处理。Seque...

2017-09-07 13:59:00 165

转载 MySQL把文件导入表中

MySQL把文件导入表中 1. Mysql 把本地文件导入表中drop table if exists wufangzhai_caigou_group;create table wufangzhai_caigou_group( label V...

2017-09-06 16:13:00 291

转载 numpy+pandas 基础学习

numpy+pandas 基础学习 #-*- coding:utf-8 -*-import numpy as np;data1=[1,2,3,4,5]array1=np.array(data1)#创建数组/矩阵# 使用numpy中的a...

2017-08-16 12:59:00 133

转载 基本的描述性统计

基本的描述性统计 1. 最小值,1/4位数,中位数,3/4位数,最大值excel里面: MIN,QUARTILE,MAX,AVARAGE2. 众数excel里面: MODE.MULT ...

2017-08-16 12:55:00 205

转载 Hive 优化汇总

Hive 优化汇总 参考:http://www.cnblogs.com/yshb/p/3147710.htmlhttp://www.cnblogs.com/sandbank/p/6408762.html一 join时注意点:1. 小表放前面...

2017-07-19 09:56:00 100

转载 PostgreSQL (简称gp)小集

PostgreSQL (简称gp)小集 1. SQLyog & Navicat  SQLyog可以管理 MySQL Navicat 可以管理 SQL Server,MySQL,PostgreSQL,SQLite2. 日期及加减now...

2017-05-15 18:15:00 187

转载 yarn 日志查看

yarn 日志查看 1. yarn 日志列表yarn application -list2. impala-shellimpala-shell -q 'invalidate metadata'## impala-shell -...

2017-05-09 16:00:00 407

转载 Python: 对CSV文件读写 和 Md5加密

Python: 对CSV文件读写 和 Md5加密 1. python 有专门的csv包,直接导入即可。import csv;2. 直接使用普通文件的open方法csv_reader=open("e:/python/csv_data/log...

2017-05-03 18:25:00 946

转载 odps 使用参考 & tips

odps 使用参考 & tips 1. 自定义udf编写udf1)pom.xml <dependency> <groupId>com.aliyun.odps</groupId&g...

2017-04-28 14:58:00 440

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除