21岁害怕编程-CSDN博客

原创 Seaborn/matplotlib自定义3D(三维)绘图，使用不同颜色区分不同数据类别：商用数据可视化

对于低维度数据集，或者高维度数据集在使用pca等方法降维后，有时需要根据标签画出3维图，不同类别标签使用不同颜色。如下图所示，x，y，z为数据特征，根据类别使用不同颜色。可见，特征混叠严重，需要更换降维方法。以下，将以 kaggle中Instant Gratification数据集（二分类数据集）为例，在使用pca降维后，根据类别使用不同颜色画图。

2023-02-07 16:51:58 1166

原创 IEEE自定义查询：导出文献后数据清洗

自定义搜索：IEEE导出搜索结果，之后使用pandas洗数据。

2022-05-12 18:55:06 396

原创目标检测paddlex后使用nms代码优化

改了bug1:当score最大的锚框出现在左上是少统计的bug。bug2:while有时无限循环，加个counter限制最大循环。加了最小准确率的参数，有时候有用。返回结果改成了直接返回bbox和score，避免了index的改动问题。

2022-03-27 16:48:11 4076

原创 pytorch中指定或者冻结一层网络的权值（weight)

在实际开发中，我们有时需要指定一层神经网络的参数或者冻结他们。在torch中，我们都可以轻易实现。本文以简单的cnn为例，详细讲述了指定一层网络的权值和冻结一层网络的权值的方法。

2022-03-12 17:02:55 4205

我们之前的blog写了一个函数，拿到了数据类型的分布。但是，在基于sklearn中的pipeline机器学习机制下，我们希望可以把数据集中的数据类型划分为以下几个部分：1.含大量的空值的列（如一列中超过70%为空）1.数值数据（numerical），并且不含大量的空值2.低类别数的类别数据（categorical），如只含两类的类别数据，并且不含大量的空值3.中等类别数的类别数据，如含3-10类的类别数据，并且不含大量的空值4.高类别数的类别数据，可能类别接近于类似均匀，如一列中70%以

2022-03-06 19:45:46 1359

原创 pandas获取数据集数据类型分布（更细粒度的分割）

方法一：pandas_profiling输出分析以泰坦尼克号数据集为例，如果只是康康然后疯狂复制粘贴的话那没啥，但是如果想全流程自动化，就要把ProfileReport的结果用到接下来的数据处理中，不妨把结果输出到json文件。from pandas_profiling import ProfileReportimport pandas as pddf = pd.read_csv('train.csv',index_col=['PassengerId'])report = ProfileR

2022-03-05 21:58:07 2124

原创数据集分析工具pandas-profiling进阶：个性化定制配置文件与参数

个性化定制输出报告，一般我们要修改参数或者配置文件。本文介绍了常用的参数，并且修改了配置文件的一部分来演示结果。

2022-03-05 12:37:04 2236

原创 pandas读文件时中UnicodeDecodeError常用解决方案

如果我们遇到UnicodeDecodeError，一般而言是因为编码错误。所以尝试其他编码是个不错的选择。但一一尝试速度较慢，我们不妨使用chardet库和pandas读文件的其他机制解决问题。chardet库可以帮我们检测可能的编码。import pandas as pdimport numpy as npimport chardet# look at the first ten thousand bytes to guess the character encodingwith

2022-03-03 18:06:00 2827

原创 pandas描述全部数据的情况（空值个数，类别个数，数据类型）

如果想在pandas中查看数据情况，我们一般使用describe方法，但是describe只对数值数据有效，对categorical数据无效，如果我们想要对所有的数据分析，不妨自己写一个简单的函数，对dataFrame的空值个数，类别个数，数据类型进行统计

2022-03-01 22:34:09 1929

原创 dataFrame中，若空值已经被标注为了＂unkown＂或＂?＂的处理方法

dataFrame中，若空值已经被标注为了'unkown'或'?'之类的，isnull函数不可行，但是我们可以在读文件时设置，抑或检查 "?" 的存在并统计，还有先转化为nan，随后用我们熟悉的isnull处理。

2022-02-27 14:33:09 256

原创 dataFrame中出现空列的检查与空值个数的统计

我们可以使用如下代码：df = pd.DataFrame({'Yes': [50, 21, None, 70, 21], 'No': [131, 2, 98, 1, 3]})cols_with_missing = [col for col in df.columns if df[col].isnull().any()]print(cols_with_missing)for i in cols_with_missing: print(i + ': " + str(df[i].isnul

2022-02-27 14:06:34 1087

原创运用sklearn的pipeline机器学习实战（以墨尔本房价为例）

我们在运用pandas写机器学习的数据预处理时，数据清洗和建模部分有时候会觉得写的比较乱，维护和修改较为麻烦。不过，sklearn库中的Pipeline（流水线）较好地解决了这个问题，

2022-02-26 17:38:51 1228

原创 seaborn中jointplot的2D KDE自定义画法：商用数据可视化

在商业可视化领域，对于双特征的KDE等高线图，让等高线变化有了色彩的变化的感觉，两边的小图加阴影，也自定义了调色盘，设置了独特的主题

2022-02-25 23:17:46 2759 3

原创 IEEE论文搜索多单词关键字/关键词不被拆分的个性化搜索方法（IEEE的自定义搜索）

在IEEE搜索时，在查找关键词时，若选择相关度，被引用量可能很低，反之亦然，所以，我们导出搜索结果后使用pandas进行数据清洗，来解决问题（有代码，有解析）

2022-02-25 00:16:12 5144 2

原创 pandas的DataFrame中出现多数据类型的检查(一列中有多个类型）

在pandas中，如果需要查看column的类型，一般使用 df.dtypes方法，它将返回每个列的数据类型。但实践中，有时会出现需要包含多种数据类型的场景，或者dataFrame包含的表格出错，出现了多种数据类型。为了观察dataFrame中的所有类型在列中的分布情况，我们写了对应的检查函数。

2022-02-23 20:37:39 4116 2

RuGe_Lee的博客