数据预处理
文章平均质量分 79
烤鱼想睡觉
愿漂泊的人都有酒喝,愿孤独的人都有歌唱。
展开
-
读书笔记 -- 001_数据预处理_数据清理
1、概述实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术: - - 数据清理:可以用来清楚数据中的噪声,纠正不一致。 - - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。 - - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。 - - 数据变换:(原创 2015-12-07 21:20:32 · 2856 阅读 · 0 评论 -
读书笔记 -- 002_数据预处理_数据集成
概述 数据挖掘经常需要数据集成 – 合并来自多个数据源的数据。小心集成有助于减少结果数据集的冗余和不一致。这有助于提高其后数据挖掘的准确性和速度。1、实体识别问题 数据分析多半涉及数据集成。数据集成将多个数据源中的数据合并,存放那个在一个一致的数据存储中,如存放在数据仓库中。这些数据源可能包括多个数据库、数据立方体或一般文件。自数据集成时,有许多问题需要考虑。模式集成和对象匹配可能需要技巧。原创 2015-12-08 10:59:42 · 2133 阅读 · 0 评论 -
读书笔记 -- 003_数据预处理_数据归约
概述 数据归约(data reduction)技术可以用来得到数据集的归约表示,它小得多,但是保持原始数据的完整性。也就是说,在归约后的数据集上挖掘更有效果,仍然产生相同( 或几乎形同)的分析结果。注意:用于数据归约的时间不应当超过或“抵消”在归约后的数据挖掘上挖掘节省的时间。数据挖掘策略包括维归约、数量归约和数据压缩。 1) 维归约(dimensionlity):减少所考虑的随机变原创 2015-12-10 20:46:26 · 1789 阅读 · 0 评论 -
读书笔记 -- 004_数据预处理_数据规范化
概述 所用的度量单位可能影响数据分析。例如,把height的度量单位从米制换成英寸,把weight的度量单位从公斤换成磅,可能导致的结果不一样。一般而言,用较小的单位表示属性将导致该属性具有较大的值域,因此趋向于使这样的属性具有较大的影响或较高的“权重”。为了帮助避免对度量单位选择的依赖性,数据应该规范化或标准化。这涉及到变换数据,使之落入较小的共同区间,如[-1, 1]或[0.0, 1.0]原创 2015-12-10 21:52:20 · 2504 阅读 · 0 评论 -
读书笔记 --《数学之美》_ 中文分词
《数学之美⋅\cdot第二版》第四章 现在中文分词是一个已经解决的问题,提升的空间微乎其微。不值得再去花很大的精力去做研究1、中文分词方法的演变 (a.)北航的梁南元教授提出的查字典类似的方法,但是对于稍微复杂的句子就无能为力;额; (b.)20世纪80年代哈工大的王晓龙博士将查字典的方法理论化,发展成最少词数的分词理论,但是没有解决词语的二义性问题; (c.)1990年前后,清华大学的原创 2015-12-22 20:26:45 · 1282 阅读 · 0 评论 -
读书笔记 --《数学之美》_隐马尔可夫模型
《数学之美⋅第二版》第五章1、通信模型 上图表示了一个典型的通信系统,它包括雅各布森(Roman Jakobson)提出的通信的六个要素(发送者(信息源),信道,接收者,信息,上下文和编码)。 其中,s1,s2,s3,...s_1,s_2,s_3,...表示信息源发出的信号。o1,o2,o3,...o_1,o_2,o_3,...是接受器接收到的信号。通信中的解码就是根究接收到的信号o1,o2原创 2015-12-22 21:49:49 · 1494 阅读 · 0 评论