2016-2017创新创业项目-双决策树的数据选择改进算法

miskying

于 2017-03-16 22:26:14 发布

阅读量383

点赞数

分类专栏：大学时期做过的项目

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/miskying/article/details/62456274

版权

大学时期做过的项目专栏收录该内容

10 篇文章

订阅专栏

本研究致力于数据挖掘中源数据到代表性数据转化的过程优化，重点包括大规模数据的选择与预处理技术，旨在通过提高转化效率降低计算成本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

项目简介：数据挖掘（英文：Data mining），又称为资料探勘、数据采矿。它是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD）中的一个步骤。在此过程中，由于源数据集过于庞大，计算所需的时间和空间成本很高，所以其中需要使用抽样技术。本项目致力于研究源数据集到目标数据集（代表性数据）的转化过程，主要研究分三个方面：

1) 对于大规模数据集的数据选择的研究与优化（双决策树）

2) 对于大规模数据集的数据预处理的研究

3) 具体试验与测试

研究主要目标在于从源数据集中得到标志性数据集，以此节约时间和空间成本。并且提高目标数据集的质量，从而得到更有效的结果。

研究目的

数据挖掘并不专用于某些特定领域，它需要使用各种技术寻找可能隐藏在数据中的知识。一般情况下，应用数据挖掘技术是为了实现以下三种目的：

1) 发现知识

2) 使数据可视化

3) 纠正数据

在数据挖掘的实际过程中，因为源数据集过于庞大，计算所需的时间和空间成本很高，所以其中需要使用抽样技术，提取出源数据集中具有代表性的数据，从而降低成本。项目的目的在于研究数据挖掘过程中的选择数据方式的优化和数据预处理方案，解决源数据过大导致的时间与空间成本高的问题。主要方案是提高从源数据到有效数据的转化率，从而得到更精确有效的结论。

此项目获国家级立项：http://pan.baidu.com/s/1eSopcA2

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。