2019年12月_DeniuHe

12月 11月 10月 09月 07月 06月 04月 03月 02月 01月

原创 Python：计算类别分布CalculateClassDistribution

import numpy as npimport pandas as pdfrom sklearn import datasetsfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.metrics import cohen_kappa_scorefrom sklearn.metrics import preci...

2019-12-30 11:29:12 867 2

原创 Python：相对标准的DPC

import numpy as npimport pandas as pdimport copyimport matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn import metricsfrom scipy.spatial.distance import pdist,squareformfrom co...

2019-12-27 15:41:46 2226 14

原创 Python：HSAL

from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport numpy as npfrom sklearn import datasetsfrom sklearn.linear_model import Logistic...

2019-12-24 21:58:01 245

原创 Python：Hierarchical Sampling for Active Learning 2008年 ICML上的文章

from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport numpy as npfrom sklearn import datasetsfrom sklearn.linear_model import Logistic...

2019-12-24 20:37:27 398

原创 Python：numpy random choice

import numpy as npa = np.array([100,200,300,500,400,701,852,965])idx = np.random.choice(a,2,replace=False)print(idx)

2019-12-24 18:48:15 177

原创 Python：shuffle（a）打乱array或list的顺序，原始的可迭代对象中元素顺序打乱，但原始对象的类别不变

import numpy as npa = np.array(range(20))print("a=",a)b = np.arange(20)print("b=",b)s_a = np.random.shuffle(a)s_b = np.random.shuffle(b)print(s_a)print(s_b)print("a=",a)print("b=",b)print...

2019-12-24 13:49:50 772

原创 intelligent-annotation 的使用，无tensorflow 运行通过！

from __future__ import absolute_importfrom __future__ import divisionfrom __future__ import print_functionimport osimport pickleimport sysimport numpy as npfrom time import gmtimefrom time i...

2019-12-24 09:22:23 188

原创 Python：十折交叉验证sklearn KFold 的使用

from sklearn.model_selection import KFoldfrom sklearn.datasets import load_irisfrom sklearn.ensemble import RandomForestClassifierimport numpy as npX,y = load_iris(return_X_y=True)KF = KFold(n_s...

2019-12-22 23:06:11 11272

原创 Python：类别覆盖最小采样个数

import numpy as npimport scipy.io as scioimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn.datasets import fetch_mldatafrom sklearn.datasets import fetc...

2019-12-21 12:24:18 283

原创 Python：处理Robot Navigation数据集的标签

import numpy as npimport pandas as pddata = np.array(pd.read_csv(r'E:\dataset\未处理数据集\Robot Navigation\sensor_readings_24.csv',header=None))X = data[:,:-1]y = data[:,-1]label = []n = len(y)fo...

2019-12-20 22:06:23 368

原创 Python：Semeion数据集标签处理

import numpy as npimport pandas as pdlabel = np.array(pd.read_csv(r'E:\dataset\未处理数据集\Semeion\label.csv',header=None))L = []n = label.shape[0]m = label.shape[1]for i in range(n): for j in ...

2019-12-20 21:20:29 698

原创 Python：下载轮子whl的地方

Unofficial Windows Binaries for Python Extension Packageshttps://www.lfd.uci.edu/~gohlke/pythonlibs/#tensorflow

2019-12-20 16:04:52 808

原创关于什么是大数据智能决策！摘自《大数据智能决策》自动化学报

从本质上来讲，决策是决策者对决策对象或决策方案的一种分析对比和选择的过程，并最终对决策对象或决策方案进行分类、分级或排序。数据驱动的决策是决策者通过对与决策对象有关的数据进行分析，挖掘数据中隐含的有关决策对象之间的偏好关系的信息，根据得到的偏好关系信息对决策对象进行分类、分级或排序，并最终做出选择的全过程。数据中带有用户对决策对象的偏好信息。基于大数...

2019-12-06 21:11:15 3342

原创 Python：对array 使用 list（）不会改变array的类别

import numpy as npa = np.array([1,2,3,4,5])b = list(a)print(type(a))print(type(b))print(a)print(b)

2019-12-05 20:48:34 199

原创 python：给didi数据集添加标记

import pandas as pdimport numpy as npdata = pd.read_excel(r'E:\dataset\clusterData\didi_1.xls',header=None,index_col=None)data = np.array(data)print(data.shape)y = data[:,-1]n = len(y)labels ...

2019-12-02 15:25:42 549

Active learning via local structure reconstruction

基于数据重构的主动学习方法、代表性主动学习方法、基于局部结构重构的主动学习方法、ALLSR，Python代码实现。

2023-10-29

序分类数据集Nursery

数据集Nursery的样本个数为12958，属性个数为27，类别个数为4，类别分布为[4320 328 4266 4044],不平衡度13.170731707317072

2023-10-18

序分类数据集Melanoma

数据集Melanoma的样本个数为562，属性个数为100，类别个数为5，类别分布为[313 64 102 54 29],不平衡度10.793103448275861

2023-10-18

序分类数据集Knowledge

数据集Knowledge的样本个数为403，属性个数为5，类别个数为4，类别分布为[ 50 129 122 102],不平衡度2.58 数据类型为连续数值型

2023-10-18

序分类数据集CTGs，数据类型：连续数值型

数据集CTGs的样本个数为2126，属性个数为21，类别个数为3，类别分布为[1655 295 176],不平衡度9.403409090909092 数据类型：连续数值型

2023-10-18

序分类数据集eucalyptus

数据集eucalyptus的样本个数为736，属性个数为91，类别个数为5，类别分布为[180 107 130 214 105],不平衡度2.038095238095238

2023-10-18

序分类数据集Obesity

数据集Obesity1的样本个数为2111，属性个数为29，类别个数为7，类别分布为[272 287 290 290 351 297 324],不平衡度1.2904411764705883

2023-10-18

主动学习方法：xPAL的python代码

主动学习方法论文复现Toward optimal probabilistic active learning using a Bayesian approach 2021年（xPAL）

2023-10-18

序分类数据集Nursery的one hot encoding版(12960个样本, 28个属性，类别数为5)

最新整理出来的用于序分类/序回归的稍大点的数据集Nursery，托儿所评审数据。数据集原始版本来自于UCI，但原始属性为nominal。现在已经通过one hot encoding的形式转化成了numerical数据集。大家可以直接使用了。使用KELMOR模型（分层5折交叉）的分类正确率是99.17438%，平均绝对误差是0.00771604。

2023-05-15

聚类数据集之R15.csv

聚类论文必用数据集

2021-06-25

人工回归数据集sin.csv

2021-06-25

PSO与捕鱼策略相结合的优化方法

捕鱼策略算法

2017-07-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人