2017年06月_evillist

09月 08月 07月 06月 04月 03月

原创数据挖掘的一般过程

数据挖掘的一般过程本文主要参考了一篇文章（最后附），那篇文章不太全面，因此加入了自己一点理解。由于实践经验太少，水平有限，希望大神指正。 1. 数据集选取或构造根据任务的目的，选择数据集。或者从实际中构造自己需要的数据。2. 数据预处理确定数据集后，就开始对数据进行预处理使得数据能够为我们所用了。数据预处理提高数据质量：准确性、完整性和一致性，包括数据清理、数据集成、数据规约和数据变换方法。 (

2017-06-15 10:13:58 66898 1

原创【机器学习】特征工程概述

特征工程“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。”1.概念 [维基百科：特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。]通俗的说，就是尽可能的从原始数据中获取更多信息，从而使得预测模型达到最佳。简而言之，特征工程是一个把原始数据变成特征的过程，这些特征可以很好的描述数据，并且利用它们建立的模型在未知数据上表现性能可以达到最优。2.

2017-06-14 16:15:12 4026

原创笔试之排序算法（二）

排序（二）（升序）以下都不是基于比较的算法，它们都是线性时间复杂度桶排序额外条件：输入数据 Al，A2 ，.. .， AN 必须只由小于M 的正整数组成算法思想使用一个大小为 M 称为Count的数组，它被初始化为全0Count有M个元素，即M个桶，且桶初始化为空当读入Ai时，Count[i]加1在所有的输入数据读入后，扫描数组Count，打印出排序后的表性能分析算法用时O(M+N)，即O

2017-06-08 11:42:16 371

原创笔试之排序算法（一）

排序（升序）0. 冒泡排序0.1 算法思想临近的数字两两进行比较，逆序则交换，一趟过去最大的元素被放到最后一位。再对前n-1个元素进行上述操作，直到第一个元素0.2 性能分析最坏情况：比较次数：(N-1)+(N-2)+……+2+1=N(N-1)/2~$N^2/2$交换次数：同上最好情况：比较次数：(N-1)+(N-2)+……+2+1=N(N-1)/2~$N^2/2$交换次数：0

2017-06-06 12:28:14 662

原创【数据结构和算法】面试中的红黑树

红黑树1. 数据结构定义在二叉查找树平衡的情况下，才能保证最坏查找时间为lgN但2-3树要维护两种类型不同的节点，额外开销太大红黑树：红链接用两个2-节点代替3-节点；黑链接就是2-3树中的2-节点 2-3树等价转换成红黑树public class RedBlackBST<Key extends Comparable<Key>, Value>{ private Node

2017-06-01 10:32:47 1047

动态规划_背包九讲

目录第一讲 01背包问题第二讲完全背包问题第三讲多重背包问题第四讲混合三种背包问题第五讲二维费用的背包问题第六讲分组的背包问题第七讲有依赖的背包问题第八讲泛化物品第九讲背包问题问法的变化附：USACO中的背包问题

2017-10-13

Hadoop2.8 可用 eclipse插件

Hadoop 2.8.1 + eclipse 4.7 + jdk 1.8可用。其他请自测。安装教程https://www.cnblogs.com/zhangs1986/p/6798548.html#top

2017-10-13

C程序设计语言-高清-分目录-可标注版-机械工业出版社

本书原著即为C语言的设计者之一Dennis M．Ritchie和著名的计算机科学家Brian W．Kernighan合著的一本介绍C语言的权威经典著作。虽然也是扫描版，但是本版手动添加了目录，读起来更加方便。文字也可以选择高亮、下划线等批注方式。

2017-02-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 数据挖掘的一般过程

原创 【机器学习】特征工程概述

原创 笔试之排序算法（二）

原创 笔试之排序算法（一）

原创 【数据结构和算法】面试中的红黑树