- 博客(9)
- 收藏
- 关注
原创 【数据挖掘】课本整理
第二章 数据预处理 a. 数据清理 脏数据 填充缺失值 使用缺省值、平均值、最可能的值【贝叶斯 决策树等】 光滑噪声 封箱【箱均值 箱边界】 回归 聚类 识别离群点 【原则】唯一性原则 连续性原则 空值原则 b. 数据集成 合并多个数据源的数据 解决一致性 模式集成 对象匹配 实体识别问题 冗余:通过相关分析 检测到。根据数据度量的一个属性能在多大程度上蕴含另一个 --皮尔逊积矩系数【Pearson Product coefficient】 大于零 则
2015-03-26 16:43:39
503
原创 我的bug们
1. 网页抽取不成功的时候就不要替换网址了嘛2.java正则表达式要替换网页的时候记住里面有特殊符号要用//Q //B给标注一下3.记住替换网页的时候,有时候可能把别的前缀也给替换了……4.java可能会需要调整一下内存配备。
2015-02-02 15:40:21
207
原创 快速排序
1. 快排优点:A.原址重排 B.nlgn中隐含的常数因子非常小2. 关键部分:Partition,没有采用头尾对应的swap算法,而是将数据存储空间划分为小于pivot,大于Pivot,未划分和Pivot四个部分。3. 通过画递归树可以很好的呈现时间复杂度,即使每次快排pivot选择是1/10的概率,结果也是很好的。!!任何一种常数比例的划分都会产生深度为lgn的递归树4.
2014-11-25 17:20:28
217
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人