基于
SNM
算法的大数据量中文商品清洗方法
∗
张苗苗
苏
勇
【摘
要】
摘
要
SNM
算法即邻近排序算法,是英文数据清洗最常用的算法[
1
]
。
目前为止,因为中英文语义的差异等一些原因,中文数据清洗还未形成完整的
理论,现有中文数据清洗算法大多数是基于改编英文数据清洗算法而来的[
2
~
3
]
。论文介绍数据清洗,对基于
SNM
算法对中文数据清洗的应用着重研究。
先介绍传统的
SNM
算法,论述该算法的缺陷,针对缺陷进项改进,并提出实
际中的应用场景。通过实验结果显示,在相似重复记录消除方面,
SNM
改进
算法具有明显的优势。
【期刊名称】
计算机与数字工程
【年
(
卷
),
期】
2019(047)003
【总页数】
4
【关键词】
关键词
SNM
算法;数据清洗;重复记录
【
文
献
来
源
】
https://www.zhangqiaokeyan.com/academic-journal-cn_computer-digital-
engineering_thesis/0201271010738.html
修回日期:
2018
年
10
月
26
日
Class Number TP301.6
1
引言
近些年,庞大数据量和其中隐藏的规律,带动数据挖掘技术日新月异的发展
[
4
]
。数据挖掘的成功与否主要取决于数据源的质量高低和数据挖掘技术是否
合适,而影响数据源质量的一个重要因素就是脏数据的存在[
5
]
。不一致或陈
旧的数据、不精确的数据以及人为造成的错误数据等是脏数据形成的原因[
6
]
。