snm算法_基于SNM算法的大数据量中文商品清洗方法

基于

SNM

算法的大数据量中文商品清洗方法

张苗苗

【摘

要】

SNM

算法即邻近排序算法,是英文数据清洗最常用的算法[

1

目前为止,因为中英文语义的差异等一些原因,中文数据清洗还未形成完整的

理论,现有中文数据清洗算法大多数是基于改编英文数据清洗算法而来的[

2

3

。论文介绍数据清洗,对基于

SNM

算法对中文数据清洗的应用着重研究。

先介绍传统的

SNM

算法,论述该算法的缺陷,针对缺陷进项改进,并提出实

际中的应用场景。通过实验结果显示,在相似重复记录消除方面,

SNM

改进

算法具有明显的优势。

【期刊名称】

计算机与数字工程

【年

(

),

期】

2019(047)003

【总页数】

4

【关键词】

关键词

SNM

算法;数据清洗;重复记录

https://www.zhangqiaokeyan.com/academic-journal-cn_computer-digital-

engineering_thesis/0201271010738.html

修回日期:

2018

10

26

Class Number TP301.6

1

引言

近些年,庞大数据量和其中隐藏的规律,带动数据挖掘技术日新月异的发展

4

。数据挖掘的成功与否主要取决于数据源的质量高低和数据挖掘技术是否

合适,而影响数据源质量的一个重要因素就是脏数据的存在[

5

。不一致或陈

旧的数据、不精确的数据以及人为造成的错误数据等是脏数据形成的原因[

6

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值