UCI机器学习库和一些相关算法 | 丕子

最新推荐文章于 2024-09-14 09:10:30 发布

daoqinzi

最新推荐文章于 2024-09-14 09:10:30 发布

阅读量2k

点赞数 1

分类专栏： ML&DM 文章标签：聚类算法机器学习数据库源代码免费

ML&DM 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

UCI机器学习库和一些相关算法 | 丕子 UCI机器学习库和一些相关算法 | 丕子 UCI机器学习库和一些相关算法 | 丕子

UC Irvine Machine Learning Repository：UCI指的是加州大学欧文分校。UCI机器学习库主要是收集的机器学习领域的一些相关数据集和数据生成器，可以用来做一些基本的实验。存档是创建为大卫阿哈和加州大学欧文分校研究员在1987年研究生FTP文件。自那时以来，它已被广泛用于学生，教育工作者，和其他研究机器学习的研究者，作为一个数据来源。
UCI数据集的说明告诉了读者数据的属性和类别，用户可以用自己的数据挖掘方法去将 uci数据集的分类，将结果与数据说明的结果对比。说明自己算法的正确性。

连接地址：http://archive.ics.uci.edu/ml/index.html。

Most Popular Data Sets (hits since 2007):

146332:

109522:

96455:

79479:

Breast Cancer Wisconsin (Diagnostic)

62893:

60000:

54227:

48527:

44089:

41709:

Internet Advertisements

40927:

39851:

===============================

在看别人的论文时，别人使用的数据集会给出数据集的出处或下载地址（除非是很机密的数据，例如与国家安全有关）。如果你看的论文没有给出数据集的出处，请立即停止看这篇论文，并且停止看刊发这篇论文的期刊上的所有文章。因为可以断定这些文章质量很差。

关于源代码，网上有很多公开源码的算法包，例如最为著名的Weka，MLC++等。Weka还在不断的更新其算法，下载地址：

http://www.cs.waikato.ac.nz/ml/weka/

很多的机器学习的经典算法都在里面。而且公布源程序，易于修改。

如果作者没有公布源程序，可以到作者主页找找，也可以写信给作者要，一般论文开头都会有作者的email地址。写信的时候要注意要很有礼貌，否则作者，尤其是著名学者，很有可能不会理睬。如果算法简单，可以自己实现。

关于论文的下载，如果能够访问电子图书馆是最好的，很多学校都买了IEEE, Elsevier, Kluwer等，上面的期刊都不错。有一些很好的期刊是免费的，像JAIR和JMLR，分别在：

http://www.cs.washington.edu/research/jair/home.html

http://www.jmlr.org/

====================================

关于源代码，网上有很多公开源码的算法包，例如最为著名的Weka，MLC++等。Weka还在不断的更新其算法，下载地址：
http://www.cs.waikato.ac.nz/ml/weka/
UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn
http://www.ics.uci.edu/~mlearn/\\MLRepository.htm

statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html

关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

各种数据集：
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/

进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html

时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/

apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html

数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html

关联：
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

WEKA：
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

癌症基因：
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融数据：
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

kdnuggets 相关链接数据集（借花献佛了）：
http://www.kdnuggets.com/datasets/index.html
另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集：
http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类，还有一个数据集是可以用的，即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
Download the Financial Data (~17.5M zipped file, ~67M unzipped data)
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

daoqinzi CSDN认证博客专家 CSDN认证企业博客

码龄11年

13: 原创

32万+: 周排名

201万+: 总排名

5万+: 访问

: 等级

661: 积分

14: 粉丝

26: 获赞

19: 评论

57: 收藏

私信

关注

热门文章

分类专栏

图像处理 4篇
问题类 3篇
Python 5篇
ML&DM 4篇
svm 1篇
数据库之sqlite 1篇
matlab 1篇
hadoop
linux
pytorch 1篇
深度学习 2篇

最新评论

00_torchvision.transforms 数据标准化
jaseeeee: 只有数据的均值是0.5标准差是0.5才是，不然只是一种标准化而已
00_torchvision.transforms 数据标准化
迷茫终会遇见光回复 DanielFaster: 博主的代码确实运行不出来，但是只要加一个dtype=np.uint8就可以了，以下是我的代码： import torchvision as tv import numpy as np n_out = np.random.randint(10,20,[3,2],dtype=np.uint8) print(n_out) t_out = tv.transforms.ToTensor()(n_out) print(t_out) 可以测试出来。大家可以试试
00_torchvision.transforms 数据标准化
DanielFaster 回复 zlyxpmsl: 要归一化很简单，直接将 d = np.array([d5, d5, d5], dtype=np.float32) 改成 d = np.array([d5, d5, d5], dtype=np.uint8) 原因可以看 ToTensor的源码，具体如下 [code=python] class ToTensor(object): """Convert a ``PIL Image`` or ``numpy.ndarray`` to tensor. Converts a PIL Image or numpy.ndarray (H x W x C) in the range [0, 255] to a torch.FloatTensor of shape (C x H x W) in the range [0.0, 1.0] if the PIL Image belongs to one of the modes (L, LA, P, I, F, RGB, YCbCr, RGBA, CMYK, 1) or if the numpy.ndarray has dtype = np.uint8 In the other cases, tensors are returned without scaling. """ [/code]
00_torchvision.transforms 数据标准化
求索于上下: 有问题
00_torchvision.transforms 数据标准化
wintersweetzeng 回复 zlyxpmsl: 同问？我也遇到了这种问题

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。