么心learning-CSDN博客

原创特征工程：一行代码搞定one-hot编码

本文介绍两种one-hot编码方法。第一种方法针对字符类型的特征变量；第二种方法针对数值型特征。1.Pandas自带的get_dummies方法特征工程中，最为繁琐却很重要的一步就是处理字符型特征，对于字符型特征的处理，常用方式就是one-hot编码。先来看原始数据：做one-hot编码df = pd.get_dummies(df) #get_dummies对“整数特...

2019-12-25 15:58:57 1274

原创数据分析：Pandas自定义describe方法，一行代码查看数据集各列的描述

Pandas提供describe方法，可以查看各列的计数、均值、最大最小值等，功能强大。下面介绍一种可根据自身要求，添加各个特征的其他描述的方法。df.describe().T.assign(missing_rate = df.apply(lambda x : (len(x)-x.count())/float(len(x))))T为转置，assign为添加的列。上述代码实现了，展示...

2019-05-08 09:16:38 7212 1

原创 Matplotlib：一张图同时展示柱状图和直线图

项目中要做数据分析，将客户按照信用卡使用率划分了几段，每段统计好人数，用柱状图展示，并计算每段逾期率，用直线表示。代码中的数据已处理。#python 画柱状图折线图#-*- coding: utf-8 -*-import matplotlib.pyplot as pltimport numpy as npimport matplotlib.ticker as mtick fr...

2019-05-03 17:05:22 4343

原创数据分析：Pandas单变量图形分析

在数据分析过程中，常常会对每个或部分特征变量进行数据分析，而图形展示最为直观。今天就来学习下，如何通过pandas实现单变量的统计图。数据集依旧是Kaggle的Give Me Some Credits。首先，读取数据。import pandas as pdimport matplotlib.pyplot as pltdata = pd.read_csv('/cs-training....

2018-12-12 14:11:03 883

原创 kubebuilder 问题解决：unable to run post-scaffold tasks of “base.go.kubebuilder.io/v3“: exit status 2

unable to run post-scaffold tasks of "base.go.kubebuilder.io/v3": exit status 2

2022-08-23 16:04:44 3007

原创 kubeadm init错误解决： dial tcp [::1]:10248: connect: connection refused

dial tcp [::1]:10248: connect: connection refused

2022-08-22 16:20:11 3495

原创 kubebuilder init问题：dial tcp 172.217.163.49:443: connect: connection refused

在使用kubebuilder命令初始化operator项目时，报错：modernc.org/cc@v1.0.0: Get "https://proxy.golang.org/modernc.org/cc/@v/v1.0.0.mod": dial tcp 172.217.163.49:443: connect: connection refused。在使用init初始化创建项目即可。

2022-08-17 10:25:37 1849 1

原创 yum安装k8s报错：repodata/repomd.xml from kubernetes: [Errno 256] No more mirrors to try.

repodata/repomd.xml from kubernetes: [Errno 256] No more mirrors to try.

2022-08-05 10:10:28 3184 1

本地起了三个节点，怎么都没法形成一个集群。查了很久找到下述解决办法。原文地址：https://www.cnblogs.com/chenyanbin/p/13493920.html问题根源在于es的配置文件。这是修改后的可行的文件内容：下面针对没法形成集群的问题，解决方案如下：坑一坑二因为我是在一台linux上搭建的集群，然后用端口号9200、9201、9202区分开来的，es-b、es-c是拷贝es-a的，但是es-a的data目录有数据，需要将es-b和es-c的data目录清空，然后重启

2021-11-23 19:06:18 2297 1

原创 Pandas高级：query方法教你优雅的查询

好久好久没写博客了。最近看到个很实用的pandas方法，记录下。query()DataFrame.query(expr,inplace=False,**kwargs)，用于通过boolean表达式来查询dataframe中的列。主要参数为expr，它是字符串表达式，有如下说明：要评估的查询字符串。可以在环境中引用变量，方法是在变量前添加一个@字符，例如@a + b。可以在反引号内将包含空格或运算符的列名引用起来。这样，您还可以转义以数字开头或Python关键字的名称。基本上是..

2020-12-19 12:50:32 13164 10

原创 Python计算时间间隔

使用Python计算‘2020-05-25’格式的时间间隔（天数）import datetimedef cal_interval_days(row): d1 = row['发放日期'] d2 = row['签订日期'] d1 = datetime.datetime.strptime(d1, "%Y-%m-%d") # 第一个日期 d2 = datetime.datetime.strptime(d2, "%Y-%m-%d") # 第二个日期 interv

2020-05-25 10:29:06 1591 2

原创 Pandas：一列拆分为多列

假设dataframe中有一列数据为如下形式：需要将YEAR_UNIT_DEPOSIT_PRO这一列的数据按照指定分隔符‘|’拆分为12列，并拼接到原始数据中生成新的dataframe。方法如下：# 数据拆分、拼接new_names = ['gjj_pro_' + str(x + 1) for x in range(12)] # 为新生成的列取名gjj_pro = gjj_...

2020-05-08 14:11:21 14441

原创 Python：统计两个数组相同元素个数

项目上做数据整合时，会涉及多张表，往往需要先了解两个表里的主key数组有多少相同元素。以前都是用两个for循环遍历，这样效率很低，不符合Python的精髓。正确用法如下：1.对于没有相同元素的数组两个数组如下：array1 = [1,2,3,4,5]array2 = [1,3,3,5,5]统计两个数组相同元素个数：#统计两个数组相同元素个数len(set(array1...

2020-02-28 09:51:48 34230 1

原创 Pandas：将excel中字符型数据转为float数值型

使用Pandas读取excel中的数据时，常常会遇到类似1,000,000这样的数据。Pandas读取后会认为这是个字符型，而这样的数据还不能直接用类型转换实现。正确的用法如下：data['amount'] = data['amount'].apply( lambda x: float(x.split()[0].replace(',', '')) if(',' in str(...

2019-08-15 10:30:18 7690

原创 SpringCloud：Zuul网关访问接口超时，type=Gateway Timeout, status=504

使用Zuul搭建网关，通过网关访问一个设置了延时的接口，结果并没有进入延时回调函数，而是直接显示超时。Whitelabel Error PageThis application has no explicit mapping for /error, so you are seeing this as a fallback.Fri Aug 02 16:31:42 CST 2019Th...

2019-08-02 16:36:50 7244

原创 Python可视化：一文玩转Seaborn数据可视化

Seaborn是一个用Python制作统计图形的库。它建立在matplotlib之上，并与pandas数据结构紧密集成，功能强大到无法想象。本文主要使用一下几种函数绘图：displot：灵活绘制单变量观测分布 boxplot：绘制箱型图 countplot：使用条形显示每个分类箱中的观察计数 jointplot：用双变量和单变量图绘制两个变量的图 pairplot：绘制数据集中的...

2019-05-30 14:15:03 827

原创特征工程：One-hot编码

建模时，常常会遇到有些特征变量代表的是类型或类型。比如城市（city），它的取值有San Francisco，New York和Seattle三种。代表三个城市。import pandas as pdfrom sklearn import linear_modeldf = pd.DataFrame({'City': ['SF', 'SF', 'SF', 'NYC', 'NYC', 'NY...

2019-05-23 15:48:31 1379

原创问题解决：Expected 2D array, got 1D array instead，Reshape your data either using array.reshape(-1, 1) i

y = df['OUT_AM'] 建模时遇到的错误：ValueError: Expected 2D array, got 1D array instead:array=[5.600000e+03 3.500000e+03 2.000000e+02 ... 5.072458e+06 1.170000e+04 3.980000e+04].Reshape your data eithe...

2019-05-16 13:38:47 2878

原创数据分析：各种方法

iv值，MIC值，KS值，相关系数，皮尔森相关系数计算方法。# -*- coding: utf-8 -*-# @Time : 2019/2/14 下午4:19# @Author : yangchen# @FileName: IV.py# @Software: PyCharm# @Blog ：https://blog.csdn.net/opp003/articlei...

2019-05-09 16:30:55 485

转载 Matplotlib：plot的使用

import matplotlib.pyplot as pltfig = plt.figure()fig.set(alpha=0.2) # 设定图表颜色alpha参数 plt.subplot2grid((2,3),(0,0)) # 在一张大图里分列几个小图，位置是(0，0)data_train.Survived.value_counts().plot(kind...

2019-05-08 10:16:53 295

原创数据分析：使用Imblearn处理不平衡数据（过采样、欠采样）

现实环境中，采集的数据（建模样本）往往是比例失衡的。比如网贷数据，逾期人数的比例是极低的（千分之几的比例）。对于这样的数据很难建立表现好的模型。好在Python有Imblearn包，它就是为处理数据比例失衡而生的。一.安装Imblearn包pip3 install imblearn二.过采样正样本严重不足，那就补充正样本。使用imblearn包中的over_sampling进行过...

2019-05-07 15:38:08 24560 6

原创 SpringBoot：Error creating bean with name 'entityManagerFactory' defined in class path resource

最近在学习SpringBoot，在学习通过SpringBoot连接mysql数据库时，报出这样的错误：org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'entityManagerFactory' defined in class path resource [org/s...

2019-05-05 09:53:09 1293

原创 Seaborn：拟合柱状图分布曲线

柱状图在做数据分析中使用很多，有时我们可以将柱状图的分布拟合成曲线，看看是否服从正态分布。import seaborn as sns import matplotlib as mpl sns.set_palette("hls") mpl.rc("figure", figsize=(6,4)) #将数据划分成30个状态图，并拟合分布曲线sns.distplot(df['DXMASC...

2019-05-03 17:16:37 4448 1

原创 Matplotlib高级：一张图两个Y轴

很多时候我们需要将两张曲线图展示在一张图上，方便对比和更加直观的观察。下面介绍如何用两个Y轴将两张图合并于一张图上显示。import matplotlib.pyplot as pltimport numpy as np x = np.arange(0,6)y1= [30481,12583,51,9,2,2]y2= [0.0065,0.016,0.039,0,0,0] fig,a...

2019-05-03 16:55:34 27053 1

原创 Pandas基础：查看各列数据类型

看到很多人查这个问题，刚好这两天在项目上也用到这一点。要查看各列的数据类型，因为数据处理时，首先就是要高清手里的数据都是什么类型的，尤其要关注字符型，因为很多算法都是不支持字符类型的。当数据维度和数据量都很少的时候，可以很直观的看出来，但是数据量一大，很难肉眼观测，而且很多时候是看不出隐藏的数据问题的。所以要用代码，其实代码很简单。一、读取数据df = pd.read_csv('da...

2019-02-15 13:48:43 75784

原创 Pandas高级：list转为dataframe

项目中处理好数据后，进行特征筛选，并将筛选好的特征按照IV值大小进行倒序排序。sorted排好序后，输出的list类型数据，需要将其转为pandas中的dataframe，方便后续存储。先按照特征的IV值排序：dic_sort = sorted(result_list.items(), key=lambda item: item[1], reverse=True)sorted后的数据...

2019-02-15 13:14:39 12707 1

原创 Pandas高级：map、apply和applymap

使用Pandas进行数据处理时，常用的映射函数有三种：map()，apply()和applymap()。map()函数是Python自带的，它只能用于一维数组。在Pandas中使用时，只能用于Series类型或者DataFrame中的某一列/行。apply()和applymap()是Pandas中的函数。他们可以用于一维或者多维数组。1.mapmap() 会根据提供的函数对指定序列...

2019-02-12 11:06:40 1115

原创 Pandas高级：合并数据集concat

本文主要介绍pandas中常用的数据合并的方法concat。先定义一个生产数据的函数："""一个简单的DataFrame"""def make_df(cols, ind): data = {c: [str(c) + str(i) for i in ind] for c in cols} return pd.DataFrame(data, ind...

2019-01-22 10:49:40 504

原创 Pandas高级：你真的会删除缺失值吗？

数据处理过程中，缺失值的处理是经常会遇到的。很多时候，对缺失值的处理是删除。大家都知道pandas提供dropna方法，可以快速删除数据中的缺失值。但是简单的dropna却有很多未知方法在里面。一.发现缺失值Pandas 数据结构有两种有效的方法可以发现缺失值:isnull() 和 notnull()。每种方法都返回布尔类型的掩码数据，例如:In[13]: data = pd.Se...

2019-01-21 11:19:52 6392

原创 Numpy基础：玩转随机数组

随机数组特地单独列一章节。因为numpy的随机数组方法多，而且看着都很像，容易混淆。1.numpy.random.rand创建指定大小的数组，数组数值取值范围为[0,1)。np.random.rand(2,2)array([[0.25901893, 0.40045757], [0.33556201, 0.94164229]])np.random.rand(10...

2019-01-09 17:02:59 2245

原创 Numpy基础：数组创建

numpy创建数组有如下几种方法。随机数组的创建将单独写一章。1.zeros创建元素都为0的数组。默认类型为float，可以使用dtype确定数据类型。np.zeros(10,dtype=int)array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])np.zeros((3,3))array([[0., 0., 0.], [0., 0.,...

2019-01-09 16:08:28 1194

原创 Python基础：列表、元组和字典

Python中最为常用的数据容器有列表、元组和字典。是使用Python必须掌握的基础。本文详细介绍列表、元组和字典，以及字典的两种（按照key排序和按照value排序）排序方法。一、列表1.创建list1 = [1,2,3,4,5,6]list2 = ['a','b','c','d','e']list3 = [1,'2',[3,"a"],(5,6)]特殊的创建方法：li...

2018-12-21 14:09:21 5164 1

原创问题解决： ValueError: Can't Handle mix of binary and continuous

昨天做了随机森林回归预测，但是在做模型评估时报了如题所示的错误： ValueError: Can't Handle mix of binary and continuous报错代码如下：precision, recall, F1, _ = precision_recall_fscore_support(y_test, pred_test, average="binary")其实一开...

2018-12-14 10:40:37 27655 9

原创机器学习：sklearn算法参数选择--网格搜索

机器学习中很多算法的参数选择是个比较繁琐的问题，人工调参比较费时，好在sklearn给我们提供了网格搜索参数的方法，其实就是类似暴力破解，先设定一些参数的取值，然后通过gridsearch，去寻找这些参数中表现的最好的参数。我们依旧使用上一节的泰坦尼克号生存者预测数据集。同样使用随机森林算法，看看girdsearch如何使用。先设置要调的参数和对应的取值：param_grid = {...

2018-12-14 10:28:05 3380

原创机器学习：sklearn模型指标和特征贡献度查看

模型训练完成后，即使模型评估很好，各项指标都很到位，业务人员肯定也是心里没底的，哪怕有模型公式，他们也看不懂啊。咋整，当然是先把模型的重要评估指标打印给他们看，再把特征贡献度从大到小，画成图给他们看啦。今天就通过sklearn实现模型评估指标和特征贡献度的图形查看。本文的数据集采用泰坦尼克号幸存者数据。使用sklearn的决策树和随机森林进行预测，然后查看模型的评估指标，最后将特征的贡献度从大...

2018-12-13 11:30:12 29620 13

原创数据分析：异常值检测--箱型图

在做数据分析时，我们免不了要检查数据中的异常值，但是什么样的数据算作异常呢。有人说很大或者很小的值，那到底多大多小的值算异常。箱型图就可以很好的解决这个问题。我们都知道折线图、柱状图等，但很少使用过箱型图。关于箱型图，百度百科的解释为：箱形图（Box-plot）又称为盒须图、盒式图或箱线图，是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在各种领域也经常被使用，常见于品质管理。...

2018-12-12 09:24:33 19361

原创机器学习：Python实现纯代码逻辑回归算法

之前写了一篇逻辑回归的理论知识，写得还算详尽，包含了公式的详细推导过程。这篇文章将结合之前的理论推导，通过Python代码实现逻辑回归算法，并用来预测鸢尾花种类。由于这篇文章是对照着之前的理论文章进行讲解的，所以最好先看前一篇理论文章，再看这篇实践文章。理论的文章链接为：https://blog.csdn.net/opp003/article/details/8478449上一篇的文章目标是得到...

2018-12-10 18:55:16 880

原创机器学习：逻辑回归详细推导

如今机器学习、深度学习可谓炙手可热，人工智能也确实开始影响、改变着我们的生活。正因如此，很多同学开始接触或者学习这方面的知识。机器学习的入门是有难度的，因为它不仅要求你会编码，还要你熟悉高等数学，比如线性代数，微积分等，除此之外，还要懂统计学。如果你想入门机器学习，那么一定要好好学习逻辑回归。原因如下： 1.逻辑回归可以帮你更好地理解机器学习； 2.逻辑回归已经可以解决多数问题...

2018-12-04 15:53:18 571

原创机器学习：Python模型的保存与读取

在学习机器学习的过程中，很多人都应该有这样的疑问：模型训练好了，以后要用怎么办呢？肯定不能再跑一边数据，重新训练模型以供使用，因为这样太费时间。最好的办法当然是，训练和预测分开。训练好模型后，将模型保存好，当需要预测时，直接读取模型文件来调用，进行预测。无论是sklearn还是TensorFlow，都有模型的保存和调用方法。这里我们介绍使用pickle进行模型保存和调用的方法。1.导入pick...

2018-12-04 09:20:55 13749 2

原创问题解决：'numpy.int64' object has no attribute 'timestamp'

在学习Harrison的股票分析时，按照H神的代码运行时报错了。错误信息为：'numpy.int64' object has no attribute 'timestamp'这是由于股票数据是按时间作为index的，但是直接读取数据，是无法将data列作为index的，所以在pandas读取数据时，要设置下，代码如下所示：df = pd.read_csv('google.csv', ...

2018-12-03 17:56:32 24180 1

双向链表程序

空空如也