自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据小白的进阶之路

记录工作和学习中遇到较好的知识,分享给大家~

原创 机器学习笔记之线性回归技术

一、概念 线性回归是一种有监督的回归分析技术,其是找出自变量与因变量之间的因果关系,本质上是一个函数估计的问题。回归分析的因变量应该是连续变量,若因变量为离散变量,则问题就转化为分类问题。回归分析主要应用场景为预测,常用的算法有如下:线性回归、二项式回归、岭回归、Lasso等。 二、模型...

2019-09-14 13:12:11

阅读数 1635

评论数 0

原创 Hive中存在的数据倾斜问题

真是好久没写博客了。。。趁着今天休息,把以前遇到的问题整理一下吧。 互联网中的数据量通常会很大,比如埋点数据。。。因此在日常数据处理中就会遇到数据倾斜的问题,就是那种跑半天跑不出数据或者reduce阶段卡在99%的那种情况。。。今天来说一下日常遇到数据倾斜的解决办法! 本文将从一下几个方面进行...

2019-07-06 16:17:05

阅读数 378

评论数 1

原创 WIN10系统下,安装可视化工具GraphViz

以前安装过这个包,成功了,但是电脑重做系统后,装了好半天才装好,老是提示: InvocationException: GraphViz’s executables not found 这是由于环境变量没有添加到系统path导致的,在此写个教程记录一下吧。 首先在官网下载这个安装包:http...

2019-05-16 23:40:15

阅读数 269

评论数 0

原创 Hive之Grouping Sets函数

最近在看一些关于Hive优化的东西,看到一个很好用的函数:Grouping Sets函数,今天就先总结一下关于这个函数的用法! 在一个GROUP BY 查询中,根据不同的维度组合进行聚合,等价于将不同维度的GROUP BY结果进行UNION ALL操作。GROUPING SETS就是一种将多个G...

2019-03-17 22:33:41

阅读数 1386

评论数 1

原创 spyder中安装第三方库的包

最近遇到一个问题:在CMD命令窗口安装的python包,在anaconda中spyder编辑器中找不到已安装的python包,经过网上的资料查看,原来是因为,cmd中python包的工作路径与anaconda安装路径是同一级目录,因此anaconda下的spyder并不能检测到该包,通过资料的查询...

2019-02-24 21:08:01

阅读数 9035

评论数 0

原创 hive中日期问题—取具体某一天为周几的方法及其应用

在实际的业务中,我们会遇到取历史某一天为周几,类似的这样的问题,我这里提供一个方法。具体如下: 场景:取历史一年的数据,按周汇总,并且将每周汇总数据统计到周一对应的日期。(当然这里可以对应到任意周几) 数据存放在表:dw_db.tmp_data_info_week,数据格式如下: 下面提...

2019-02-24 14:47:32

阅读数 2047

评论数 0

原创 hive之求累计值

最近做项目真是忙到昏厥,抽个空写篇博客吧,保持良好的学习习惯~ 今天要写的是工作中经常遇到的求累计值的问题。 从订单表中取出orderid,uid,time,ciiamount,数据格式如下: 现需要计算每个uid每天累计的成交金额。 SQL代码如下: --汇总每个uid每天的订单...

2018-10-22 22:12:05

阅读数 2753

评论数 1

原创 pandas小技巧之求行最大值及其索引

        在平时训练完模型后,需要对模型预测的值做进一步的数据操作,例如在对模型得到类别的概率值按行取最大值,并将最大值所在的列单独放一列。 数据格式如下: array array([[ 0.47288769,  0.23982215,  0.2261405 ,  0.06114962...

2018-09-20 14:26:34

阅读数 27122

评论数 0

原创 windows下Xgboost算法包的安装

以前在安装xgb算法包时,看了网上很多篇教程都没有成功,但最后还是找到了解决方法,恰好最近在整理笔记就与大家分享一下: 安装成功得益于如下网站下载的一个xgboost安装包的whl文件:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 通过Ctrl+F后输...

2018-09-17 13:58:11

阅读数 389

评论数 0

原创 hive中提高代码运行效率的参数配置及代码优化

今天整理下平时hive中用以提高代码运行效率的几个参数,和大家分享一下: 1、set mapreduce.map.memory.mb=5120;       此参数是设置每个map使用内存的大小,默认1024M,这个参数是控制map数量的关键参数。如果需要处理的文件较多或           ...

2018-09-06 19:09:35

阅读数 689

评论数 0

原创 hive中两种日期格式的转换

在解析埋点数据时会遇到两种不同的日期格式:yyyymmdd和yyyy-mm-dd,此类型之间的转换主要有两种思路: 第一种方法:from_unixtime+unix_timestamp --20180905转成2018-09-05 select from_unixtime(unix_time...

2018-09-05 13:45:48

阅读数 26593

评论数 0

原创 机器学习笔记之模型的评价指标小结

当我们训练好模型后,我们要对得到的模型作出评价,那我们怎么评价我们的模型呢,主要有如下指标: 一、对于回归模型,主要从下面四个指标出发: 1、explained_variance_score: 解释回归模型的方差得分,其值取值范围是[0,1],越接近于1说明自变量越能解释因变量的方差变化,值越...

2018-09-02 18:19:57

阅读数 1692

评论数 0

原创 python中部分函数用法的总结

在写python脚本时,通常会遇到一些函数,下面对这些的函数用法做一个总结: 1、strip()函数 作用:移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。 案例: #案例 a=' asdjfadf ' #创建对象 a.strip() Out[75]:...

2018-08-29 17:01:22

阅读数 129

评论数 0

原创 利用pandas对数据离散化

在实际的工作场景中,我们经常会遇到这样一种场景:想要将某些字段进行离散化即分桶,简单来说就是讲年龄分成几个区间。pandas中的cut方法能很好地完成此操作。 #导入相关库,并创建数据集 import pandas as pd import numpy as np index = pd.I...

2018-08-28 16:44:26

阅读数 3369

评论数 0

原创 hive中求相邻时间问题的两种解决方法

hive中经常会有求连续数字或者连续的时间这种问题,其实处理的方法一致。 首先给出数据的结构: 假如表dw.tmp_interview_data中存放有如下样式的数据:   求出表dw.tmp_interview_data中每个人连续工作时间段及对应的工资和,结果表如下: 姓...

2018-08-28 10:20:12

阅读数 2031

评论数 0

原创 python中分组函数groupby和分组运算函数agg小结

今天来介绍pandas中一个很有用的函数groupby,其实和hive中的groupby的效果是一样的,区别在于两种语言的写法问题。groupby在Python中的分组统计中很有用~ groupby: 首先创建数据: import pandas as pd import numpy as ...

2018-08-27 18:15:53

阅读数 9220

评论数 0

原创 机器学习笔记之交叉验证

在评估算法的效果时,为什么要进行交叉验证呢,查看了官方说明文档后,对交叉验证做了如下的描述: 在了解交叉交叉验证之前,我们先了解如下知识: 过拟合:是指所建立的机器学习模型在训练样本中表现得过于优越,导致在验证数据集以及测试数据集中表现不佳。为了避免这种情况,通常的做法是执行(监督)机器学习实...

2018-08-14 13:01:19

阅读数 459

评论数 0

原创 hive中关于子查询的问题

       在传统的关系型数据库中,是支持子查询操作的,但是在基于Hadoop的hive中却不支持这一操作,因此可以通过一些方法进行转换。 实例,执行如下sql: select * from dw.ordersnap_total where d='2018-08-09&...

2018-08-13 10:40:27

阅读数 5788

评论数 2

原创 hive中表操作的汇总

在使用hive时,会时常遇到一些表的操作,今天就把平时积累的和大家分享一下~ 1、修改字段名 --语法格式 alter table 表名 CHANGE col_old_name col_new_name new_type; --实例 use dw_bi; alter table dimcit...

2018-08-09 14:08:37

阅读数 419

评论数 0

原创 hive中零星知识点总结

工作中会遇到(想起)一些小的知识或者函数,集中一篇文章来进行总结: 1、on和where的区别 on:是指表与表之间连接条件 where:表与表之间连接之后,再按照where指定的条件进行筛选 2、COALESCE 其是非空查找函数 案例:select COALESCE(null,’a...

2018-08-09 13:41:06

阅读数 130

评论数 0

原创 hive中dense_rank&row_number&rank函数

hive中三个排序函数rank、row_number、dense_rank日常中比较常用到,今天来说说三者的区别: 1、rank()函数 此排序方法进行排序时,相同的排序是一样的,而且下一个不同值是跳着排序的。 2、row_number()函数 此方法不管排名是否有相同的,都按照顺序1,2...

2018-08-08 20:03:21

阅读数 2738

评论数 0

转载 机器学习笔记之-数据共线性的问题

       在将数据放入到模型中进行训练时,经常需要检验各维度之间的可能存在的多重共线性的问题,本文将着重讲解将如何识别和解决多重共线性的问题~ 多重共线性:         其是指模型中的自变量之间存在较强的线性关系,多重共线性的存在不仅会导致模型的过拟合,而且还会导致回归模型的 稳定性...

2018-08-08 15:47:06

阅读数 3413

评论数 0

原创 机器学习笔记之—数据的标准化

         数据的标准化是一个比较常用的数据预处理方法,其目的是处理不同量纲的数据,使其缩放到相同的数据区间和范围,以减少规模,特征、分布差异对模型的影响。标准化后的数据还具有了直接计算并生成符合指标的意义。 数据的标准化主要有以下四种方法: 1、实现中心化和正态分布的Z-score ...

2018-08-06 13:58:05

阅读数 1241

评论数 0

原创 机器学习笔记之-Kmeans

今天来聊聊聚类分析中最基础的一个算法:Kmeans。 Kmeans思想及算法流程:       首先Kmeans是一种无监督的聚类算法。对于给定的样本集,按照样本之间的距离大小,将样本划分为K个簇,让簇内的点尽量紧密的连接在一起,而让簇间的距离尽量的大。 算法流程: 1、给各个簇中心以适当...

2018-08-05 16:50:59

阅读数 10062

评论数 1

原创 基于余弦夹角计算句子相似度的应用——房型名称匹配

项目背景:         将平台所售卖的房型与竞争对手的房型进行匹配,以节省人力及提高效率和匹配准确率~ 数据的处理:        竞对的房型名称相对于平台来说,显得非常的复杂,但是配合平台的强大的业务能力,在和运营人员讨论数据清洗规则方面花费了大量的时间,不过好在最后的数据清洗的已经足...

2018-07-31 18:21:11

阅读数 774

评论数 0

原创 pandas小技巧之--值替换

     通常,我们在将数据集进入到模型进行训练时时,需要将数据框中的某些模型不支持的值进行替换,比如性别这种。今天就来讲讲在pandas中进行特定值替换。 首先数据格式如下: df = pd.DataFrame({"id": [25,53,15,47,52,54,45,...

2018-07-28 23:01:22

阅读数 19697

评论数 0

原创 hive技巧之—行转列的另一种实现方法

       前两天有个行转列的需求困扰了同事,我看了之后想出如下自认为较为简单的实现方法,和大家分享一下~ 数据格式如下: 现在的目标是像转为一行,即: productid 服务 位置 设施 卫生 344920 ** ** ** **  现在...

2018-07-23 14:33:49

阅读数 4347

评论数 0

原创 hive中的正则表达式及其应用

今天来说一下hive中的正则表达式,主要包含:元字符匹配、位置匹配、频率匹配 1、元字符匹配 (.)   表示匹配除换行符以外的任意字符。 (\w) 表示匹配字母、下划线、数字或汉字(\\W)。 (\d) 表示匹配数字 (\s) 表示匹配任意的空白符 ([ ])  表示匹配方括号中任一...

2018-07-20 15:18:01

阅读数 24830

评论数 1

翻译 机器学习—决策树算法学习笔记

最近真的忙的要死,不过还是要学习的,今天打算写一篇关于机器学习的学习笔记~ 一、决策树简介        首先决策树是一种有监督的机器学习算法,其采用的方法是自顶向下的递归方法,构建一颗树状结构的树,其具有分类和预测功能。其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为...

2018-07-15 15:02:51

阅读数 96

评论数 0

原创 sql server之pivot函数

PIVOT用于将列值旋转为列名(即行转列)   今天整理以前的笔记时,发现以前在PPD实习的时候遇到一个场景,感觉很实用所以想记录一下,说不定以后能用到,话不多说,直接上案例:--表table1 问题编号 时间节点 listing_size TotalAmount 1.1 ...

2018-06-13 16:00:20

阅读数 1815

评论数 0

原创 pandas之ix 、loc 和 iloc的区别

在Python中处理日常数据时,经常会需要索引某些行,现结合本人使用经验做一个小的总结,pandas中主要有以下函数: 1、 loc 2、iloc 3、ix首先来谈谈loc:其是通过行标签索引行数据import pandas as pd df = pd.DataFrame({'team_...

2018-06-13 13:58:13

阅读数 288

评论数 0

原创 hive中json字符串解析之get_json_object与json_tuple

      在技术对app进行埋点时,会讲多个字段存放在一个数组中,因此模型调用数据时,要对埋点数据进行解析,以作进一步的清洗。本文将介绍解析json字符串的两个函数:get_json_object和json_tuple。表结构如下:一、get_json_object函数的作用:用来解析json字...

2018-06-08 17:03:54

阅读数 25100

评论数 0

原创 hive中对多行进行合并—collect_set&collect_list函数

       最近在项目中清洗了一些埋点的数据,要求是将一张表中特定字段的行进行合并,并且不对重复的数据进行去重如下,数据形式如下,要对from字段进行进行合并: 一开始用collect_set函数实现,发现对字段进行去重了,后来发现collect_list函数可以实现,现将两者的区别总结如...

2018-06-06 17:18:48

阅读数 16697

评论数 1

提示
确定要删除当前文章?
取消 删除