自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 资源 (1)
  • 收藏
  • 关注

原创 特征工程:一行代码搞定one-hot编码

本文介绍两种one-hot编码方法。第一种方法针对字符类型的特征变量;第二种方法针对数值型特征。1.Pandas自带的get_dummies方法特征工程中,最为繁琐却很重要的一步就是处理字符型特征,对于字符型特征的处理,常用方式就是one-hot编码。先来看原始数据:做one-hot编码df = pd.get_dummies(df) #get_dummies对“整数特...

2019-12-25 15:58:57 1099

原创 数据分析:Pandas自定义describe方法,一行代码查看数据集各列的描述

Pandas提供describe方法,可以查看各列的计数、均值、最大最小值等,功能强大。下面介绍一种可根据自身要求,添加各个特征的其他描述的方法。df.describe().T.assign(missing_rate = df.apply(lambda x : (len(x)-x.count())/float(len(x))))T为转置,assign为添加的列。上述代码实现了,展示...

2019-05-08 09:16:38 6966 1

原创 Matplotlib:一张图同时展示柱状图和直线图

项目中要做数据分析,将客户按照信用卡使用率划分了几段,每段统计好人数,用柱状图展示,并计算每段逾期率,用直线表示。代码中的数据已处理。#python 画柱状图折线图#-*- coding: utf-8 -*-import matplotlib.pyplot as pltimport numpy as npimport matplotlib.ticker as mtick fr...

2019-05-03 17:05:22 4198

原创 数据分析:Pandas单变量图形分析

在数据分析过程中,常常会对每个或部分特征变量进行数据分析,而图形展示最为直观。今天就来学习下,如何通过pandas实现单变量的统计图。数据集依旧是Kaggle的Give Me Some Credits。首先,读取数据。import pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('/cs-training....

2018-12-12 14:11:03 789

原创 kubebuilder 问题解决:unable to run post-scaffold tasks of “base.go.kubebuilder.io/v3“: exit status 2

unable to run post-scaffold tasks of "base.go.kubebuilder.io/v3": exit status 2

2022-08-23 16:04:44 2354 1

原创 kubeadm init错误解决: dial tcp [::1]:10248: connect: connection refused

dial tcp [::1]:10248: connect: connection refused

2022-08-22 16:20:11 2804

原创 kubebuilder init问题:dial tcp 172.217.163.49:443: connect: connection refused

在使用kubebuilder命令初始化operator项目时,报错:modernc.org/cc@v1.0.0: Get "https://proxy.golang.org/modernc.org/cc/@v/v1.0.0.mod": dial tcp 172.217.163.49:443: connect: connection refused。在使用init初始化创建项目即可。

2022-08-17 10:25:37 1620 1

原创 yum安装k8s报错:repodata/repomd.xml from kubernetes: [Errno 256] No more mirrors to try.

repodata/repomd.xml from kubernetes: [Errno 256] No more mirrors to try.

2022-08-05 10:10:28 2604 1

原创 ES无法形成一个集群的问题

本地起了三个节点,怎么都没法形成一个集群。查了很久找到下述解决办法。原文地址:https://www.cnblogs.com/chenyanbin/p/13493920.html问题根源在于es的配置文件。这是修改后的可行的文件内容:下面针对没法形成集群的问题,解决方案如下:坑一坑二因为我是在一台linux上搭建的集群,然后用端口号9200、9201、9202区分开来的,es-b、es-c是拷贝es-a的,但是es-a的data目录有数据,需要将es-b和es-c的data目录清空,然后重启

2021-11-23 19:06:18 1982 1

原创 Pandas高级:query方法教你优雅的查询

好久好久没写博客了。最近看到个很实用的pandas方法,记录下。query()DataFrame.query(expr,inplace=False,**kwargs),用于通过boolean表达式来查询dataframe中的列。主要参数为expr,它是字符串表达式,有如下说明:要评估的查询字符串。可以在环境中引用变量,方法是在变量前添加一个@字符,例如@a + b。可以在反引号内将包含空格或运算符的列名引用起来。 这样,您还可以转义以数字开头或Python关键字的名称。 基本上是..

2020-12-19 12:50:32 12459 10

原创 Python计算时间间隔

使用Python计算‘2020-05-25’格式的时间间隔(天数)import datetimedef cal_interval_days(row): d1 = row['发放日期'] d2 = row['签订日期'] d1 = datetime.datetime.strptime(d1, "%Y-%m-%d") # 第一个日期 d2 = datetime.datetime.strptime(d2, "%Y-%m-%d") # 第二个日期 interv

2020-05-25 10:29:06 1484 2

原创 Pandas:一列拆分为多列

假设dataframe中有一列数据为如下形式:需要将YEAR_UNIT_DEPOSIT_PRO这一列的数据按照指定分隔符‘|’拆分为12列,并拼接到原始数据中生成新的dataframe。方法如下:# 数据拆分、拼接new_names = ['gjj_pro_' + str(x + 1) for x in range(12)] # 为新生成的列取名gjj_pro = gjj_...

2020-05-08 14:11:21 14132

原创 Python:统计两个数组相同元素个数

项目上做数据整合时,会涉及多张表,往往需要先了解两个表里的主key数组有多少相同元素。以前都是用两个for循环遍历,这样效率很低,不符合Python的精髓。正确用法如下:1.对于没有相同元素的数组两个数组如下:array1 = [1,2,3,4,5]array2 = [1,3,3,5,5]统计两个数组相同元素个数:#统计两个数组相同元素个数len(set(array1...

2020-02-28 09:51:48 33379 1

原创 Pandas:将excel中字符型数据转为float数值型

使用Pandas读取excel中的数据时,常常会遇到类似1,000,000这样的数据。Pandas读取后会认为这是个字符型,而这样的数据还不能直接用类型转换实现。正确的用法如下:data['amount'] = data['amount'].apply( lambda x: float(x.split()[0].replace(',', '')) if(',' in str(...

2019-08-15 10:30:18 7302

原创 SpringCloud:Zuul网关访问接口超时,type=Gateway Timeout, status=504

使用Zuul搭建网关,通过网关访问一个设置了延时的接口,结果并没有进入延时回调函数,而是直接显示超时。Whitelabel Error PageThis application has no explicit mapping for /error, so you are seeing this as a fallback.Fri Aug 02 16:31:42 CST 2019Th...

2019-08-02 16:36:50 7046

原创 Python可视化:一文玩转Seaborn数据可视化

Seaborn是一个用Python制作统计图形的库。 它建立在matplotlib之上,并与pandas数据结构紧密集成,功能强大到无法想象。本文主要使用一下几种函数绘图:displot:灵活绘制单变量观测分布 boxplot:绘制箱型图 countplot:使用条形显示每个分类箱中的观察计数 jointplot:用双变量和单变量图绘制两个变量的图 pairplot:绘制数据集中的...

2019-05-30 14:15:03 656

原创 特征工程:One-hot编码

建模时,常常会遇到有些特征变量代表的是类型或类型。比如城市(city),它的取值有San Francisco,New York和Seattle三种。代表三个城市。import pandas as pdfrom sklearn import linear_modeldf = pd.DataFrame({'City': ['SF', 'SF', 'SF', 'NYC', 'NYC', 'NY...

2019-05-23 15:48:31 1252

原创 问题解决:Expected 2D array, got 1D array instead,Reshape your data either using array.reshape(-1, 1) i

y = df['OUT_AM'] 建模时遇到的错误:ValueError: Expected 2D array, got 1D array instead:array=[5.600000e+03 3.500000e+03 2.000000e+02 ... 5.072458e+06 1.170000e+04 3.980000e+04].Reshape your data eithe...

2019-05-16 13:38:47 2806

原创 数据分析:各种方法

iv值,MIC值,KS值,相关系数,皮尔森相关系数计算方法。# -*- coding: utf-8 -*-# @Time : 2019/2/14 下午4:19# @Author : yangchen# @FileName: IV.py# @Software: PyCharm# @Blog :https://blog.csdn.net/opp003/articlei...

2019-05-09 16:30:55 396

转载 Matplotlib:plot的使用

import matplotlib.pyplot as pltfig = plt.figure()fig.set(alpha=0.2) # 设定图表颜色alpha参数 plt.subplot2grid((2,3),(0,0)) # 在一张大图里分列几个小图,位置是(0,0)data_train.Survived.value_counts().plot(kind...

2019-05-08 10:16:53 224

原创 数据分析:使用Imblearn处理不平衡数据(过采样、欠采样)

现实环境中,采集的数据(建模样本)往往是比例失衡的。比如网贷数据,逾期人数的比例是极低的(千分之几的比例)。对于这样的数据很难建立表现好的模型。好在Python有Imblearn包,它就是为处理数据比例失衡而生的。一.安装Imblearn包pip3 install imblearn二.过采样正样本严重不足,那就补充正样本。使用imblearn包中的over_sampling进行过...

2019-05-07 15:38:08 22241 6

原创 SpringBoot:Error creating bean with name 'entityManagerFactory' defined in class path resource

最近在学习SpringBoot,在学习通过SpringBoot连接mysql数据库时,报出这样的错误:org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'entityManagerFactory' defined in class path resource [org/s...

2019-05-05 09:53:09 1123

原创 Seaborn:拟合柱状图分布曲线

柱状图在做数据分析中使用很多,有时我们可以将柱状图的分布拟合成曲线,看看是否服从正态分布。import seaborn as sns import matplotlib as mpl sns.set_palette("hls") mpl.rc("figure", figsize=(6,4)) #将数据划分成30个状态图,并拟合分布曲线sns.distplot(df['DXMASC...

2019-05-03 17:16:37 4104

原创 Matplotlib高级:一张图两个Y轴

很多时候我们需要将两张曲线图展示在一张图上,方便对比和更加直观的观察。下面介绍如何用两个Y轴将两张图合并于一张图上显示。import matplotlib.pyplot as pltimport numpy as np x = np.arange(0,6)y1= [30481,12583,51,9,2,2]y2= [0.0065,0.016,0.039,0,0,0] fig,a...

2019-05-03 16:55:34 25160 1

原创 Pandas基础:查看各列数据类型

看到很多人查这个问题,刚好这两天在项目上也用到这一点。要查看各列的数据类型,因为数据处理时,首先就是要高清手里的数据都是什么类型的,尤其要关注字符型,因为很多算法都是不支持字符类型的。当数据维度和数据量都很少的时候,可以很直观的看出来,但是数据量一大,很难肉眼观测,而且很多时候是看不出隐藏的数据问题的。所以要用代码,其实代码很简单。一、读取数据df = pd.read_csv('da...

2019-02-15 13:48:43 74146

原创 Pandas高级:list转为dataframe

项目中处理好数据后,进行特征筛选,并将筛选好的特征按照IV值大小进行倒序排序。sorted排好序后,输出的list类型数据,需要将其转为pandas中的dataframe,方便后续存储。先按照特征的IV值排序:dic_sort = sorted(result_list.items(), key=lambda item: item[1], reverse=True)sorted后的数据...

2019-02-15 13:14:39 12410 1

原创 Pandas高级:map、apply和applymap

使用Pandas进行数据处理时,常用的映射函数有三种:map(),apply()和applymap()。map()函数是Python自带的,它只能用于一维数组。在Pandas中使用时,只能用于Series类型或者DataFrame中的某一列/行。apply()和applymap()是Pandas中的函数。他们可以用于一维或者多维数组。1.mapmap() 会根据提供的函数对指定序列...

2019-02-12 11:06:40 1024

原创 Pandas高级:合并数据集concat

本文主要介绍pandas中常用的数据合并的方法concat。先定义一个生产数据的函数:"""一个简单的DataFrame"""def make_df(cols, ind): data = {c: [str(c) + str(i) for i in ind] for c in cols} return pd.DataFrame(data, ind...

2019-01-22 10:49:40 391

原创 Pandas高级:你真的会删除缺失值吗?

数据处理过程中,缺失值的处理是经常会遇到的。很多时候,对缺失值的处理是删除。大家都知道pandas提供dropna方法,可以快速删除数据中的缺失值。但是简单的dropna却有很多未知方法在里面。一.发现缺失值Pandas 数据结构有两种有效的方法可以发现缺失值:isnull() 和 notnull()。每种方法都 返回布尔类型的掩码数据,例如:In[13]: data = pd.Se...

2019-01-21 11:19:52 6261

原创 Numpy基础:玩转随机数组

随机数组特地单独列一章节。因为numpy的随机数组方法多,而且看着都很像,容易混淆。1.numpy.random.rand创建指定大小的数组,数组数值取值范围为[0,1)。np.random.rand(2,2)array([[0.25901893, 0.40045757], [0.33556201, 0.94164229]])np.random.rand(10...

2019-01-09 17:02:59 2131

原创 Numpy基础:数组创建

numpy创建数组有如下几种方法。随机数组的创建将单独写一章。1.zeros创建元素都为0的数组。默认类型为float,可以使用dtype确定数据类型。np.zeros(10,dtype=int)array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])np.zeros((3,3))array([[0., 0., 0.], [0., 0.,...

2019-01-09 16:08:28 1050

原创 Python基础:列表、元组和字典

Python中最为常用的数据容器有列表、元组和字典。是使用Python必须掌握的基础。本文详细介绍列表、元组和字典,以及字典的两种(按照key排序和按照value排序)排序方法。一、列表1.创建list1 = [1,2,3,4,5,6]list2 = ['a','b','c','d','e']list3 = [1,'2',[3,"a"],(5,6)]特殊的创建方法:li...

2018-12-21 14:09:21 5048 1

原创 问题解决: ValueError: Can't Handle mix of binary and continuous

昨天做了随机森林回归预测,但是在做模型评估时报了如题所示的错误: ValueError: Can't Handle mix of binary and continuous报错代码如下:precision, recall, F1, _ = precision_recall_fscore_support(y_test, pred_test, average="binary")其实一开...

2018-12-14 10:40:37 27510 9

原创 机器学习:sklearn算法参数选择--网格搜索

机器学习中很多算法的参数选择是个比较繁琐的问题,人工调参比较费时,好在sklearn给我们提供了网格搜索参数的方法,其实就是类似暴力破解,先设定一些参数的取值,然后通过gridsearch,去寻找这些参数中表现的最好的参数。我们依旧使用上一节的泰坦尼克号生存者预测数据集。同样使用随机森林算法,看看girdsearch如何使用。先设置要调的参数和对应的取值:param_grid = {...

2018-12-14 10:28:05 3234

原创 机器学习:sklearn模型指标和特征贡献度查看

模型训练完成后,即使模型评估很好,各项指标都很到位,业务人员肯定也是心里没底的,哪怕有模型公式,他们也看不懂啊。咋整,当然是先把模型的重要评估指标打印给他们看,再把特征贡献度从大到小,画成图给他们看啦。今天就通过sklearn实现模型评估指标和特征贡献度的图形查看。本文的数据集采用泰坦尼克号幸存者数据。使用sklearn的决策树和随机森林进行预测,然后查看模型的评估指标,最后将特征的贡献度从大...

2018-12-13 11:30:12 27398 13

原创 数据分析:异常值检测--箱型图

在做数据分析时,我们免不了要检查数据中的异常值,但是什么样的数据算作异常呢。有人说很大或者很小的值,那到底多大多小的值算异常。箱型图就可以很好的解决这个问题。我们都知道折线图、柱状图等,但很少使用过箱型图。关于箱型图,百度百科的解释为:箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用,常见于品质管理。...

2018-12-12 09:24:33 16696

原创 机器学习:Python实现纯代码逻辑回归算法

之前写了一篇逻辑回归的理论知识,写得还算详尽,包含了公式的详细推导过程。这篇文章将结合之前的理论推导,通过Python代码实现逻辑回归算法,并用来预测鸢尾花种类。由于这篇文章是对照着之前的理论文章进行讲解的,所以最好先看前一篇理论文章,再看这篇实践文章。理论的文章链接为:https://blog.csdn.net/opp003/article/details/8478449上一篇的文章目标是得到...

2018-12-10 18:55:16 795

原创 机器学习:逻辑回归详细推导

如今机器学习、深度学习可谓炙手可热,人工智能也确实开始影响、改变着我们的生活。正因如此,很多同学开始接触或者学习这方面的知识。机器学习的入门是有难度的,因为它不仅要求你会编码,还要你熟悉高等数学,比如线性代数,微积分等,除此之外,还要懂统计学。如果你想入门机器学习,那么一定要好好学习逻辑回归。原因如下:    1.逻辑回归可以帮你更好地理解机器学习;    2.逻辑回归已经可以解决多数问题...

2018-12-04 15:53:18 470

原创 机器学习:Python模型的保存与读取

在学习机器学习的过程中,很多人都应该有这样的疑问:模型训练好了,以后要用怎么办呢?肯定不能再跑一边数据,重新训练模型以供使用,因为这样太费时间。最好的办法当然是,训练和预测分开。训练好模型后,将模型保存好,当需要预测时,直接读取模型文件来调用,进行预测。无论是sklearn还是TensorFlow,都有模型的保存和调用方法。这里我们介绍使用pickle进行模型保存和调用的方法。1.导入pick...

2018-12-04 09:20:55 13393 2

原创 问题解决:'numpy.int64' object has no attribute 'timestamp'

在学习Harrison的股票分析时,按照H神的代码运行时报错了。错误信息为:'numpy.int64' object has no attribute 'timestamp'这是由于股票数据是按时间作为index的,但是直接读取数据,是无法将data列作为index的,所以在pandas读取数据时,要设置下,代码如下所示:df = pd.read_csv('google.csv', ...

2018-12-03 17:56:32 23917 1

双向链表程序

用VS2010写的双向链表的C++程序,实现了链表的所有操作

2013-11-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除