自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 Python中plot()画图添加数据标签,显示点对应的数值

创建子图的好处: 每个子图可以单独操作,想画啥就画啥 各个子图之间可以共享坐标轴,便于同一量纲去比较数值的大小 fig,((ax1,ax2,ax3,ax4,ax5,ax6)) = plt.subplots(1,6,figsize=(22,4),sharex=True,sharey=True) ...

2020-06-03 10:12:38 622 0

原创 Python中Matplotlib如何添加次坐标轴,添加多个图例

由于总量数据过大,不太适合与拆分的维度使用同一坐标轴展示,所以对于总量使用主坐标轴,拆分的细分维度均使用次坐标轴。 这是使用同一个坐标轴的结果: 知识点1:subplots() plt.subplots()可以创建一张画布和一系列的子图。可以返回画布对象matplotlib.figure.Fig...

2020-05-27 17:12:18 176 0

原创 Python中的位置参数(*args)和关键字参数(**kwargs)

在Python中: 位置参数:会被打包成元组,元组的元素是不可改变的,会根据元组中元素对应关系直接赋值 关键字参数:会被打包成字典,字典就是key-value,会根据关键字及其取值完成对应关键字参数的赋值 In [332]: def say_hello_then_call_f(f, *args...

2020-05-20 16:41:05 72 0

原创 Python中的匿名函数Lambda lambda x的用法

使用pandas时经常对dataframe的一列进行特别操作,这时候就会用到lambda来实现。比如: lambda x: x.replace(’ ‘,’’)可以实现对于一列中的每一个字符串元素实现去除空格的处理。 lambda x lambda本质上是个函数功能,是个匿名的函数,表达形式和用法均...

2020-05-20 15:33:17 86 0

原创 数据分析师也要学会写漂亮的Python函数

在编程语言中,写函数就像是制作一个魔术箱,进去一个东西,出来另外一个东西,像是变了个魔术一样神奇。 但作为数据分析师,真是不爱写函数,清洗数据?那就按部就班的做就好了,见招拆招,为啥要费脑筋写那个函数呢? 写函数的优点 结构更清晰,可读性好,降低修改维护成本 代码复用性高,可提升效率 教你写简...

2020-05-20 11:19:22 113 0

原创 Python中zip实现元素配对压缩、解压缩

zip可以实现多个序列(列表、元组、集合)元素的“配对”,生成一个新的元组列表: In [128]: s1 = ('name','age','school') ...

2020-05-18 15:54:27 48 0

原创 Python中序列函数enumerate()与dict()的巧妙使用

enumerate()是Python内置的序列函数,可以实现对一个序列的迭代。 这个序列可以是列表(list),也可以是集合(set),亦可以是元组(tuple)。以下是对元组这个序列的迭代输出。 In [122]: s = ('hello','world'...

2020-05-18 15:24:09 162 0

原创 Python中通过help查看对象的方法描述

In [96]: help() Welcome to Python 3.8's help utility! If this is your first t...

2020-05-18 14:45:38 78 0

原创 Python日期处理:日期转字符串 & 字符串转日期 & 两个日期相减

Python????️个叫datetime的模块(包),这个模块集成了3个主要的类型: datatime类型: 日期和时间 date类型: 日期 time类型: 时间 1.认识3个主要的日期和时间类型 打开Ipython,实践中学习。 In [1]: from datetime import ...

2020-05-15 14:47:25 87 0

原创 None、Null与空字符''什么区别

1. None 表示空无一物,啥也没有存储。 编程语言里采用None 比如在python中None不是一个保留关键字,只是NoneType对象的一个实例。 空就是空,它不是整型,不是浮点型,也不是字符串,就是一个NoneType。所以在使用len(None)时候会报错,因为NoneType没有...

2020-05-13 16:33:12 101 0

原创 Python里的%s和%d是什么意思

二元运算符 % 1)%是一个二元运算符,在实数运算中用来实现取莫的操作,比如: In [53]: 5 % 2 Out[53]: 1 2) 除此之外%与格式字符叠加...

2020-05-13 15:41:42 270 0

原创 字符串前面加个r'是什么意思

有时候可以看到字符串前面加了一个r‘,那么这个代表什么意思呢? 在字符串的最左边加上r,是告诉解释器所有字符按照原本的样子进行解释 In [48]: r'12\24' ...

2020-05-13 15:07:04 220 0

原创 name 'iterable' is not defined 在python中判断一个对象是否可迭代

如果一个对象可迭代意味着可以通过for循环去操作处理它,那么在python中怎样判断一个对象是否可直接迭代?如何生成或将一个对象转化为可迭代的对象呢? 1. 判断对象是否是迭代器(iterator) # 列表list对象 In [9]: isinstance([1,2,3],Iterable) ...

2020-05-13 13:56:34 149 0

原创 dataframe日期按周、按月、按季度聚合

dataframe中的每一列都是一个Series对象,这个Series对象的index默认是从0开始,步长为1进行递增。 如果你的dataframe中有一列是日期,对于其他列字段需要按照日期字段进行聚合的话,需要将待聚合列的Series对象index属性修改为该日期字段。 关键是这个操作: off...

2020-05-08 14:12:30 763 0

原创 NameError: name 'datetime' is not defined

sql脚本跑出的日期是通过substring()截取出来的,是字符串类型。在dataframe中需要调用日期函数做一个转化,将string转化为dataframe类型。 offline.index = custs_to_orders['day_tm'].apply(lambda...

2020-05-08 13:41:58 519 0

原创 pandas如何在一个Excel文件中写入多个sheet页

要实现这个功能,需要借助于pandas的ExcelWriter()方法,参考如下: from impala.util import as_pandas # 把数据库中表字段写入到Excel文件中便于查看 curs.execute("""describe ods.ta...

2020-04-30 15:11:15 99 0

原创 “ResultSet”对象没有属性“find_all”,unable to get local issuer certificate (_ssl.c:1108)问题解决

from bs4 import BeautifulSoup import urllib.request url='https://topic.autohome.com.cn/new/home/sos.jsp?isNonCar=0&nonCar=0&brandId=25&...

2020-04-27 09:36:28 276 0

原创 Glyph 26426 missing from current font.解决matplotlib画图中文字体乱码问题
原力计划

1. 问题复现 环境:Ipython 3.8 import matplotlib.pyplot as plt import pandas as pd data = pd.read_csv('/Users/me/Documents/small_cust.csv') ...

2020-04-18 15:29:52 1883 0

原创 spark sql如何把一列拆分为多行:Lateral view explode

背景介绍 比如拿到了每个人吃的食物,并且知道每种食物的卡路里,需要计算每个人的摄入的总卡路里数。怎么计算呢? 表p_food name food Lily apple、milk、rice Amy meat、water、 表f_ca...

2020-04-16 15:18:20 248 0

原创 Mac中Dbeaver启动时报错:“fail to create java virtual machine”

用的好好的Dbeaver 今天启动时候突然一个报错“fail to create java virtual machine”,除此之外没有其他提示信息了。看到这个信息想起来上周刚在本机上安装了Hadoop,Spark,过程中有新下载了JDK,有可能是Java版本问题。 遇到环境问题,也没有诀窍...

2020-04-11 16:27:47 463 0

原创 python读取txt文件中的json数据

txt文本文件能存储各式各样数据,结构化的二维表、半结构化的json,非结构化的纯文本。 存储在excel、csv文件中的二维表,都是可以直接存储在txt文件中的。 半结构化的json也可以存储在txt文本文件中。 最常见的是txt文件中存储一群非结构化的数据: 今天只学习:从txt中读出j...

2019-10-21 17:16:12 1652 0

原创 如何将SQL查出的结果拼成json串

在机器学习中,特征工程是一个非常重要的环节,特征的好坏直接影响模型的效果。 除了用SQL开发一些简单的单值特征,比如每家店铺的流量,每家店铺的销量,这种单维的特征非常常见。 在实际工作中,还会有开发一些复杂特征的需求,常见的比如每家店铺在每个城市的广告投入,每家店在每个城市的产出,这里的投入产出指...

2019-08-19 17:32:39 3745 0

原创 解决github的SSH认证问题

https://gitlab.geely.com/help/ssh/README#generating-a-new-ssh-key-pair 1. 打开Git bash 这个bash可不是一个英语单词,而是GNU Bourne-Again Shell的简称,是一个shell提供了人机交互的接口。 ...

2019-08-13 15:26:55 221 0

原创 python连接hive批量补充时间分区特征

1. python连接数据库 from pyhive import hive conn = hive.Connection( host= 'xxx xxx', port= xxx, auth='CUSTOM...

2019-08-07 17:20:47 82 0

原创 azkaban调度SQL代码

1. azkaban上新建一个project 登录azkaban后,右上角有个Create Project的按钮,点解后录入项目信息。 2.上传项目文件 前人经验,这里应该上传一个.zip的压缩文件,并且你这个.zip的压缩文件里面不要有文件目录,直接是文件。 这个压缩文件里有2个文件,一...

2019-07-16 16:54:07 476 0

原创 Oracle中横表转纵表

本文的横表存储的是特征数据,表的数据结构是经常会变化的,比如添加特征操作。 特征表设计为横表操作不灵活,别人在引用特征时也将受到这种变化影响,增加特征后也可能带来数据异常。此外,特征数量庞大之后,选用特征也会及其不便。 所以我们考虑将关联得到的横表,转化为纵表进行存储。 代码操作的数据库为:Or...

2019-06-19 17:13:21 1766 0

原创 oracle中的with as子查询用法

在开发标签或者特征时,需要以基本对象为基础,做许多关联、计算或统计。 如果开发的特征数目少,涉及到的表也比较少,可能还可以写一大段关联一气呵成。然而,绝大多数情况下,随着标签涉及到基础数据表的膨胀,数据在关联中也不断膨胀,非常容易出问题。那么如何解决这个问题呢? 在oracle中,with as ...

2019-06-18 15:45:03 532 0

原创 oracle中add_months()统计近1个月、近3个月、近6个月

1)获取当前日期 首先近N个月,是以当前执行时间为基期的,所以先弄清楚在oracle中如何获取当前日期。 select sysdate from dual 执行了这条语句后,可以看到返回了一个当前日期 注意sysdate不是一个函数,所以后面不要加括号。 2)日期的窗口函数 如果是月份,在o...

2019-06-18 14:30:49 1541 0

原创 深入探讨回归分析的假设条件、散点图以及解决方案

回归分析标志着预测建模的第一步。毫无疑问,回归分析非常容易实现。无论是语法还是其中使用的参数,都没有任何易混淆的。但是,只跑一行代码是无法解决问题的,也不是只看看R² ,MSE值就可以的。回归分析告诉我们的远远不止这些! All models are wrong, but some are us...

2019-05-22 10:14:42 1192 0

原创 hive sql中between and

捣鼓了一下午,发现被复制结果集坑了。 哎感觉踩坑踩的像个无知的新手 select SUBSTRING(a.CREATED_TIME,0,7),dict_value,count(distinct a.mobile_no) as clues from dcs.NT_TP_P_CUSTOMERS a ...

2019-05-10 17:25:44 2380 0

原创 python中多层for循环跳出break与else

代码能力不甚强,只知道break可以跳出其所归属的最小循环体,并且接触到的一般都是小循环结束了,外面嵌套的大循环也就直接结束了,不会有其他操作。 直到今天写这个需求,苦苦想了个把钟头才搞对,真是水平不高哈哈、 找到了一个值,就即刻写入文件,终止循环 所有的都找一遍,如果还是找不到,就写入空值 ...

2019-03-22 16:53:00 956 0

原创 机器学习——决策树建模及预测

本篇中将分4步介绍一个简单的决策树预测模型的构建过程,让你对建模过程有初步了解。 1. 选择数据集 你的数据集中变量太多了,让人摸不着头脑,即便是打印出来也看不清楚。怎样才能把这些庞大的数据集简化为能看得懂的东西呢? 在这篇中我们先依据直觉选择几个变量。稍后的篇章中将介绍如何利用统计类技巧优化变量...

2019-03-12 14:24:53 2403 0

原创 机器学习——pandas操作数据

上一篇中已经了解了机器学习中一个简单的决策树模型,接下来将通过理论知识的学习,了解如何利用Pandas操作数据。 Pandas操作数据 机器学习项目的首要操作是建模人员要熟悉数据。在这节中,将教大家用Python的Pandas库来操作数据。Pandas是数据科学家用于浏览和操作数据的一个最基础的工...

2019-03-12 14:07:08 162 0

原创 机器学习——基础知识篇

首先我们对机器学习模型的工作原理和使用方法有一个概括性的了解。如果你已经做过一些统计模型或者机器学习相关的工作,可能会觉得这太基础了,不过不要担心,我们很快就会构建一些强大的模型。 决策树模型 这个微课程将让你在熟悉以下场景后,构建模型。 你的堂哥已经花了数百万美元用于房地产的预测,由于你对数据科...

2019-03-12 13:39:43 158 0

原创 Mysql导出所有表名

只想要导出表名,快速的操作是通过Mysql的命令行来实现。 Navicat的工具栏提供了命令行的快速入口,点击工具——命令列界面 就可以看见弹出的窗口: mysql> show tables; 执行这条命令,就可以看到该库下所有表的名称 欢迎扫描下方二维码,关注微信公众号“数据分析...

2019-02-27 15:00:05 3504 0

原创 使用python查询Elasticsearch并导出所有数据

作为数据分析师,要学的可真多!但一旦触及到数据,无论它在藏在哪里,只要我们想要使用,就真是无所不用其极阿,python刀操起来~ 刚开始一直通过Kibana提供的工具来查询存储在Elasticsearch中的数据,统计个结果完全没问题。偶一日不仅仅是需要查询统计个结果,而是要对满足条件的结果近一步...

2019-02-21 17:40:30 11831 9

原创 Python写入csv文件时出现空行

import csv flow = open('./my csv file.csv, 'w'') csv_writer = csv.writer(flow) for line in lines: csv_writer.writerow(line) 这...

2019-02-18 15:22:14 1353 2

原创 module torch has no attribute empyt如何解决?

在学习pytorch时,按照官方文档进行联系,刚输入了一行代码,就出现了问题: import torch # construct a 5 * 3 matrix, uninitialized x = torch.empty(5, 3) print(x) 报了个错,说torch模块没有empty属...

2019-01-31 14:48:51 879 0

原创 如何安装Pytorch?

打开pytorch的官网:http://pytorch.org/ 如果大不看试试:https://pytorch.org/ 首页的quick start locally里点选自己的安装环境,它会给你相应的安装代码。 红色部分是选中的配置,将Run this Command里给出的命令,复制到An...

2019-01-30 10:38:20 2150 1

原创 Impala SQL实现按天、自然周、月、季度、年份周期统计

在整理完了Oracle、MySQL中如何通过SQL实现按天、自然周、月、季度、年份周期统计时,忽然想起在hive与impala中,SQL的语法也是不尽相同,但又有共通之处。 俗话说,授人予鱼,不若授人以渔。学习方法、解决问题的方法才是最重要的。 无论我们在哪种SQL搜索引擎上使用SQL进行查询与...

2019-01-29 16:33:08 4450 1

提示
确定要删除当前文章?
取消 删除