自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 面试遇到的问题

1.朴素贝叶斯为什么叫朴素?2.朴素贝叶斯如何聚类?3.simhash为什么结果能让相似文本hash值差不多4.二叉树的删除

2015-03-27 15:24:46 370

原创 【数据挖掘】课本整理

第二章 数据预处理 a. 数据清理 脏数据 填充缺失值 使用缺省值、平均值、最可能的值【贝叶斯 决策树等】 光滑噪声 封箱【箱均值 箱边界】 回归 聚类 识别离群点 【原则】唯一性原则 连续性原则 空值原则 b. 数据集成 合并多个数据源的数据 解决一致性 模式集成 对象匹配 实体识别问题 冗余:通过相关分析 检测到。根据数据度量的一个属性能在多大程度上蕴含另一个 --皮尔逊积矩系数【Pearson Product coefficient】 大于零 则

2015-03-26 16:43:39 503

原创 我的bug们

1. 网页抽取不成功的时候就不要替换网址了嘛2.java正则表达式要替换网页的时候记住里面有特殊符号要用//Q   //B给标注一下3.记住替换网页的时候,有时候可能把别的前缀也给替换了……4.java可能会需要调整一下内存配备。

2015-02-02 15:40:21 207

原创 快速排序

1. 快排优点:A.原址重排 B.nlgn中隐含的常数因子非常小2. 关键部分:Partition,没有采用头尾对应的swap算法,而是将数据存储空间划分为小于pivot,大于Pivot,未划分和Pivot四个部分。3. 通过画递归树可以很好的呈现时间复杂度,即使每次快排pivot选择是1/10的概率,结果也是很好的。!!任何一种常数比例的划分都会产生深度为lgn的递归树4.

2014-11-25 17:20:28 217

原创 堆排序

1. 原址的 in place 指不需要占用非常数的空间

2014-11-25 10:05:24 358

原创 分治策略

4.1 最大子数组问题寻找股票最佳买入卖出点,最开始并没有把它转化为

2014-11-21 16:00:50 308

原创 wap准备

1. 最长上升子序列DP算法,注意最终daan

2014-11-05 15:38:03 296

原创 分治法

归并排序中,往往需要在合并过程中,将A[p]

2014-11-04 09:33:14 211

原创 算法导论 start

这篇文章不算是技术文吧,希望以此作为一个起点,慢慢磨练自己!书看起来了!!

2014-11-03 16:30:56 284

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除