SEO优化技术讲到头无非是内容与链接

SEO优化技术讲到头无非是内容与链接,而链接又建立于内容之上,所以内容就是SEO优化的基石。但是优质与独特的内容不是随手可得,为了追求独特的内容,伪原创技术就开始发展起来。SEO伪原创技术顾名思义就是伪造一些看似原创的内容来蒙蔽搜索引擎,从而获得更多的内链或外链,站群也是非常依赖伪原创技术的。素老胡写本文的用意在于用程序化的具体实现来告诫一些SEO新手或一直利用软件伪原创的朋友,这些方法只是掩耳盗铃,一叶障目。若真想做好的SEO需要务实的去思考与实践,只有走正道才能做好SEO,才能做的长久。


今天我们详细深入的说下SEO伪原创的段落混淆技术,并且利用程序来实现相似度检测(反作弊检测),从而说明这类伪原创技术是非常容易背识破,让大家放弃这些作弊的想法。


文本一:A,B,C,D,E,F,G
文本二:G,F,E,D,C,B,A


我们用不同的英文字母来代替一些文本内容,这样更便于我们理解和观察。从视觉上来说,两短文本文序不同,但所传达的信息是相同的,所以最开始很多SEO人员利用这种混淆段落顺序的方法来创造伪原创文章。下面我们看看这些伪原创是如何被轻松的识破的。下面简单的讲一下识别的原理(验证方法有很多种,我只取了其中一个作说明)。






清洗文本内容(标准化)的目的是将一些中英文符号,英文大小写等一样含义不同写法的内容统一,避免因为大小写不同而错误的判断为两个完全不同的内容,这里清洗是为了将内容MD5编码化打基础。


拆分文本为段落数组后MD5编号,这里是为了更高效的判断任意两段文本是否一致,这里是为了内容交集计算打下基础。


内容交集计算就是获得两段文本中到底有多少个独立的段落内容是一样的,这里不考虑出现的位置,只判断内容是否存在重复。


下面的图片更加详细的展示了大致过程






为了方便网友进行测试,可以下载我已经写好的小软件,若需要源代码,请在留言中留下您的电子邮件,我会逐一发送。


【点击下载测试程序】






开发语言:C#
开发环境:Microsoft Visual Studio 2012
运行环境:.Net Framework 4.5(点击可下载安装)
测试对象:单纯文本段落顺序混淆之后的相似度检测(不包含近义词等检测)


转载请保留原创作者信息与网站,素老胡huxingyu
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值