自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

翻译 Hive 导入的中文数据出现乱码问题

1, hive支持的utf8,所以需要将文件的格式转换为对应的utf8。2,Hive中文乱码问题的解决办法,网上有很多帖子,然而很多都是基于Linux终端显示字符的修改,其实上对于一些条件下的HIVE中文乱码问题是无法解决的,如从CSV文件导入到HIVE中出现的中文乱码问题。 大家都知道,HIVE原生的字符编码是采用UTF-8方式的,这是支持中文的。然而在从Oracle导出CSV文件...

2018-07-25 18:20:21 19911 1

原创 contab设置周期性任务

CRONTAB概念/介绍      crontab命令用于设置周期性被执行的指令。该命令从标准输入设备读取指令,并将其存放于“crontab”文件中,以供之后读取和执行。cron 系统调度进程。 可以使用它在每天的非高峰负荷时间段运行作业,或在一周或一月中的不同时段运行。cron是系统主要的调度进程,可以在无需人工干预的情况下运行作业。crontab命令允许用户提交、编辑或删除相应的作业。...

2018-07-25 15:05:29 2726

原创 shell 获取当月时间

 #!/bin/bash# 获取当前月份monthhive=`date +%Y-%m`# 获取昨天的日期#dthive=`date -d last-day +%Y-%m-%d`dthive=`date -d "2 days ago" +%Y-%m-%d`#$date -d "2 days ago" +%Y-%m-%d echo "nohup hive -hiveconf d...

2018-07-25 14:36:20 2188

原创 XGBOOST数据

XGBOOST处理的数据形式,主要可以是libsvm, 三元组,numpy的形式其中,numpy的形式是最常见的,通常情况下,使用HIVE处理的数据,样本字段,往往都是处理成numpy的形式,进行处理。但是,当数据非常稀疏的时候。可以将数据处理成KEY:VALUE的形式或者四三元组的形式尤其是点击对应的推荐系统...

2018-07-23 21:17:52 475

原创 XGBOOST 数据处理

在Python中使用XGBoost下面将介绍XGBoost的Python模块,内容如下: * 编译及导入Python模块 * 数据接口 * 参数设置 * 训练模型l * 提前终止程序 * 预测A walk through python example for UCI Mushroom dataset is provided.安装首先安装XGBoost的C++版本,然后进...

2018-07-23 21:14:46 5913

原创 XGBOOST 进行稀疏数据的处理

xgboost进行稀疏数据的处理当数据及其稀疏的时候,不应该转换为numpy等形式,尤其是点击数据。商品成千上万,用户点击商品的种类只是其中的某一些类型,但是以此建立起来的点击矩阵的纬度却是庞大而冗余解决方式1:将数据转化为libsvm存储的形式, 数据的第一列是label, 第二列之后的是特征label   key1:value1  key2:value2  key3:val...

2018-07-21 21:59:41 7529

原创 Python time strftime()方法

描述Python time strftime() 函数接收以时间元组,并返回以可读字符串表示的当地时间,格式由参数format决定。语法strftime()方法语法:time.strftime(format[, t])参数format -- 格式字符串。t -- 可选的参数t是一个struct_time对象。返回值返回以可读字符串表示的当地时间。说明python中时间日期格式化符号:%y 两位数的...

2018-07-08 22:21:30 814

原创 seaborn python 数据可视化的一种利器

from __future__ import divisionimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns1234561、定性调色板 Qualitative默认的定性调色板:deep, muted, pastel, bright, dark, colorbl...

2018-07-08 22:19:38 218

转载 .loc,.iloc,.ix python

python 中根据位置取值.loc,.iloc,.ix还可以通过每一行的索引和列的索引,把需要的行和列单独取出来.loc主要是针对字符串的,当索引是字符串那么就用.loc,如果索引是数字,就用iloc[python] view plain copyimport numpy as np  import pandas as pd  df = pd.DataFrame(np.arange(0,60,2...

2018-07-05 14:57:58 678

转载 ABTest

在倡导数据驱动的公司中,会通过大量的数据分析来了解产品业务的进展以及做相关的决定。一个较大的产品或者策略改进上线以后,需要进行一段时间的abtest,以决定这个产品或者策略改进是否符合预期,是否要扩大流量,或者需要中止实验。ABTest系统背景互联网与传统软件行业的开发最大区别就是快速迭代,新增一个业务或者新增一个基于老业务的算法更新也许只是某个工程师一天的结果。在这种代码高速发布过程中, 必然存...

2018-07-02 10:27:03 5031 1

原创 SQL order by limit

limit 0,1, 从你的表中的第0个数据开始,只读取一个;我们再看下mysql解释sql语言时的执行顺序:(7) SELECT (8) DISTINCT <select_list>(1) FROM <left_table>(3) <join_type> JOIN <right_table>(2) O...

2018-07-01 20:50:42 3936

转载 SOL 顺序

2018-07-01 16:24:57 407

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除