自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 HIVE导出数据命令hive -e的使用(导出文件前先删除原文件的内容)

小白最近在工作中遇到,从hive表中向服务器导出txt文档的问题,之前没有注意到一个问题:情景一:导入到csv文件 之前一直是将hive表中的查询结果导入到csv文件中,用下面的语句执行:每次的csv文件都是覆盖上一次的结果file_path="/home/chen"file_name_t="test.csv"hive -e "set hive.re...

2019-07-27 10:32:19 2386

原创 【数据库】HIVE SQL之lateral view json_tuple和lateral view explode联合使用

在工作中,处理数据时遇到的情况是多种多样的,这次就遇到一种相对有一丢丢复杂的情况,案例如下:String类型的字段,案例如下:[{"key":"upload-screenshot","value":false},{"key":"choice","value":"已解决"}] 现在需要把key和value解析出来。乍一看,直接用get_json_obj...

2019-07-20 17:16:30 4095

原创 【Python】实现箱线图异常值检测

小白在之前文章中已经阐述了箱线图的原理,这里小白就把自己在工作中做的一个自动化异常值检测拿来分享一下~原理请看这篇博文(https://blog.csdn.net/Jarry_cm/article/details/95473014) 小白根据箱线图的原理,分析工作中的情况,比如说酒店每天的浏览量异常值检测,那么就可以根据历史30天或者更多天的数据来检测,昨天的浏览量是否...

2019-07-18 20:42:58 7291 1

原创 【Python】数据处理之One-Hot编码

在我们数据分析、建模的时候,首先要处理的就是各种数据,数据的类型也不仅仅局限于连续型数值。比如,性别、城市名等等此类的指标也是很多的。这种类型, 它是不具备序列性、也不能比较大小的,如果这个时候简单的用数字来替换,那么就给这种赋予了大小的属性,这就会影响权重矩阵的计算。这个时候,就可以用One-Hot编码(也有人称独热编码)这种特殊的编码方式了。 举例解释下为什么直...

2019-07-18 20:42:24 7290

原创 三门问题详解

三门问题也称为蒙提霍尔问题、蒙特霍问题或蒙提霍尔悖论,出自美国的电视游戏节目Let's来自 Craig F. Whitaker 于1990年寄给《展示杂志》(Parade Magazine)玛丽莲·沃斯·莎凡特(Marilyn vos Savant)专栏的信件:“假设你正在参加一个游戏节目,你被要求在三扇门中选择一扇:其中一扇后面有一辆车;其余两扇后面则是山羊。你选择了一道门,假...

2019-07-18 20:40:55 9180

原创 【Python】Anaconda安装Tensorflow

相信各位大神都有安装Tensorflow失败N次的经历,小白也是如此,之前写过一篇博文,用Anaconda Prompt安装Tensorflow,对,很成功,在Anaconda Prompt上完美使用Tensorflow,BUT,在Spyder上是无论如何都报错,说没有次moudle,小白实在不懂为何,后来又换了今天讲的这种方式进行安装,非常完美。所以,如果是已经安装了Anacon...

2019-07-13 16:13:22 416

原创 【shell】shell调用python脚本--参数传递

在工作中,我们会碰到使用shell脚本调用python脚本,那么如何使用?1.shell单纯的调用python脚本,不传递参数shell:file_path="/home/chen_lib"python_name="test.py"python $file_path/$python_name对的,就这么简单,file_path是你的公共目录,所有文件都放在这个...

2019-07-12 18:53:02 6624

原创 箱线图(Boxplot)

箱线图(Boxplot)也称箱须图(Box-whisker Plot),箱形图等,1977年由美国著名统计学家约翰·图基(John Tukey)发明,是一种用作显示一组数据分散情况资料的统计图,利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。它...

2019-07-12 18:52:45 16773

原创 【Python】Anaconda Prompt安装Tensorflow详解(windows7版)

首先,小白的Anaconda的Python3.6.4版本的,电脑是64位,所以整个安装过程是基于此环境。接下来就开始安装Tensorflow啦~第一步,安装Tensorflow需要从Anaconda仓库中下载,默认情况下都是国外镜像地址,那么如何用国内清华的镜像呢?往下看:打开Anaconda中的Anaconda Prompt,然后输入:conda config --...

2019-07-12 18:52:25 3385 1

原创 【Python】Numpy之排序(sort)、去重函数(unique)、查找函数(in1d)

在各种数据分析时,排序和去重是用的最多 的两个方法,小白最近也经常用到,这里做一个总结。首先创造一个array:a=np.random.random((1,10))排序函数sort用法:sort(axis=-1, kind='quicksort', order=None)返回排序的结果看下官方文档对各个参数的解释:axis:排序沿数组的(轴)方向,0表示按...

2019-07-05 09:21:28 6616

原创 【Python】Numpy之矩阵的相关计算及矩阵的选取与切割

Numpy有很多矩阵运算的方法,小白总结了一些常用和认为在算法中用到的方法~基础操作:首先创建两个矩阵A = np.array([[1,2],[1,2]])B = np.array([[2,4],[5,5]])1.矩阵对应位置的元素相加#矩阵同位置元素相加np.add(A,B)#方法1A+B #方法2结果都为:array([[3, 6], ...

2019-07-04 09:30:46 7071

原创 【Python】Numpy之各种创建array的方法及Numpy中的函数使用

学习Python的童鞋,对numpy都不陌生,小白最近学习了一些Numpy的方法,发现Numpy真的很强大。Numpy:本质的数字化的python,当然也可以存放string类型的数据。如何创建array?可以用tuple也可用list.其中,dtype用来指定数据类型,int32指,存放int类型最高32位,不过也可以去掉32,直接写int。数据类型float都可以定义数据的长度,也...

2019-07-03 09:24:22 28906 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除