- 博客(5)
- 资源 (3)
- 收藏
- 关注
原创 数据挖掘的一般过程
数据挖掘的一般过程本文主要参考了一篇文章(最后附),那篇文章不太全面,因此加入了自己一点理解。由于实践经验太少,水平有限,希望大神指正。 1. 数据集选取或构造根据任务的目的,选择数据集。或者从实际中构造自己需要的数据。2. 数据预处理确定数据集后,就开始对数据进行预处理使得数据能够为我们所用了。数据预处理提高数据质量:准确性、完整性和一致性,包括数据清理、数据集成、数据规约和数据变换方法。 (
2017-06-15 10:13:58 66898 1
原创 【机器学习】特征工程概述
特征工程“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。”1.概念 [维基百科:特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。]通俗的说,就是尽可能的从原始数据中获取更多信息,从而使得预测模型达到最佳。简而言之,特征工程是一个把原始数据变成特征的过程,这些特征可以很好的描述数据,并且利用它们建立的模型在未知数据上表现性能可以达到最优。2.
2017-06-14 16:15:12 4026
原创 笔试之排序算法(二)
排序(二)(升序)以下都不是基于比较的算法,它们都是线性时间复杂度桶排序额外条件:输入数据 Al,A2 ,.. ., AN 必须只由小于M 的正整数组成算法思想使用一个大小为 M 称为Count的数组,它被初始化为全0Count有M个元素,即M个桶,且桶初始化为空当读入Ai时,Count[i]加1在所有的输入数据读入后,扫描数组Count,打印出排序后的表性能分析算法用时O(M+N),即O
2017-06-08 11:42:16 371
原创 笔试之排序算法(一)
排序(升序)0. 冒泡排序0.1 算法思想临近的数字两两进行比较,逆序则交换,一趟过去最大的元素被放到最后一位。再对前n-1个元素进行上述操作,直到第一个元素0.2 性能分析最坏情况: 比较次数:(N-1)+(N-2)+……+2+1=N(N-1)/2~$N^2/2$交换次数:同上最好情况: 比较次数:(N-1)+(N-2)+……+2+1=N(N-1)/2~$N^2/2$交换次数:0
2017-06-06 12:28:14 662
原创 【数据结构和算法】面试中的红黑树
红黑树1. 数据结构定义在二叉查找树平衡的情况下,才能保证最坏查找时间为lgN但2-3树要维护两种类型不同的节点,额外开销太大红黑树:红链接 用两个2-节点代替3-节点;黑链接 就是2-3树中的2-节点 2-3树 等价转换成 红黑树public class RedBlackBST<Key extends Comparable<Key>, Value>{ private Node
2017-06-01 10:32:47 1047
动态规划_背包九讲
2017-10-13
Hadoop2.8 可用 eclipse插件
2017-10-13
C程序设计语言-高清-分目录-可标注版-机械工业出版社
2017-02-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人