自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (3)
  • 收藏
  • 关注

原创 数据挖掘的一般过程

数据挖掘的一般过程本文主要参考了一篇文章(最后附),那篇文章不太全面,因此加入了自己一点理解。由于实践经验太少,水平有限,希望大神指正。 1. 数据集选取或构造根据任务的目的,选择数据集。或者从实际中构造自己需要的数据。2. 数据预处理确定数据集后,就开始对数据进行预处理使得数据能够为我们所用了。数据预处理提高数据质量:准确性、完整性和一致性,包括数据清理、数据集成、数据规约和数据变换方法。 (

2017-06-15 10:13:58 66898 1

原创 【机器学习】特征工程概述

特征工程“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。”1.概念 [维基百科:特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。]通俗的说,就是尽可能的从原始数据中获取更多信息,从而使得预测模型达到最佳。简而言之,特征工程是一个把原始数据变成特征的过程,这些特征可以很好的描述数据,并且利用它们建立的模型在未知数据上表现性能可以达到最优。2.

2017-06-14 16:15:12 4026

原创 笔试之排序算法(二)

排序(二)(升序)以下都不是基于比较的算法,它们都是线性时间复杂度桶排序额外条件:输入数据 Al,A2 ,.. ., AN 必须只由小于M 的正整数组成算法思想使用一个大小为 M 称为Count的数组,它被初始化为全0Count有M个元素,即M个桶,且桶初始化为空当读入Ai时,Count[i]加1在所有的输入数据读入后,扫描数组Count,打印出排序后的表性能分析算法用时O(M+N),即O

2017-06-08 11:42:16 371

原创 笔试之排序算法(一)

排序(升序)0. 冒泡排序0.1 算法思想临近的数字两两进行比较,逆序则交换,一趟过去最大的元素被放到最后一位。再对前n-1个元素进行上述操作,直到第一个元素0.2 性能分析最坏情况: 比较次数:(N-1)+(N-2)+……+2+1=N(N-1)/2~$N^2/2$交换次数:同上最好情况: 比较次数:(N-1)+(N-2)+……+2+1=N(N-1)/2~$N^2/2$交换次数:0

2017-06-06 12:28:14 662

原创 【数据结构和算法】面试中的红黑树

红黑树1. 数据结构定义在二叉查找树平衡的情况下,才能保证最坏查找时间为lgN但2-3树要维护两种类型不同的节点,额外开销太大红黑树:红链接 用两个2-节点代替3-节点;黑链接 就是2-3树中的2-节点 2-3树 等价转换成 红黑树public class RedBlackBST<Key extends Comparable<Key>, Value>{ private Node

2017-06-01 10:32:47 1047

动态规划_背包九讲

目录 第一讲 01背包问题 第二讲 完全背包问题 第三讲 多重背包问题 第四讲 混合三种背包问题 第五讲 二维费用的背包问题 第六讲 分组的背包问题 第七讲 有依赖的背包问题 第八讲 泛化物品 第九讲 背包问题问法的变化 附:USACO中的背包问题

2017-10-13

Hadoop2.8 可用 eclipse插件

Hadoop 2.8.1 + eclipse 4.7 + jdk 1.8可用。其他请自测。安装教程https://www.cnblogs.com/zhangs1986/p/6798548.html#top

2017-10-13

C程序设计语言-高清-分目录-可标注版-机械工业出版社

本书原著 即为C语言的设计者之一Dennis M.Ritchie和著名的计算机科学家Brian W.Kernighan合著的一本介绍C语言的权威经典著作。 虽然也是扫描版,但是本版手动添加了目录,读起来更加方便。文字也可以选择高亮、下划线等批注方式。

2017-02-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除