在线伪原创工具www.bolewei.com的开发过程

前言

  百度百科上伪原创的定义是“所谓伪原创就是把一篇文章进行再加工,使其让搜索引擎认为是一篇原创文章,从而提高网站权重”。其实对于程序猿来说,伪原创就是“对文章进行大量的同义词替换”。

  做SEO的朋友——尤其是黑帽SEO的朋友——一定知道,伪原创对于搜索引擎优化至关重要。英文的伪原创称为“Spin”,成熟的英文伪原创工具有TBS、Spinnerchief等等,TBS的售价还挺贵。而成熟、靠谱中文伪原创工具,却一直罕有。在百度搜索“中文伪原创”,首页的几个工具我都试过了,效果差强人意。

  于是我开发了伯乐伪原创http://www.bolewei.com/ ,有兴趣的朋友可以先体验。(但必须说明的是,这只是测试版本,离正式版还很遥远哦 O(∩_∩)O哈哈~)

中文伪原创工具需要考虑的问题

  我开始思考,目前已有的中文伪原创工具,效果差在哪些地方呢?我想到以下几个:

  一、分词问题

  中文和英文不同,无论是搜索引擎的蜘蛛,还是其他自然语言处理的语料分析,都是需要分词的。如果不先进行分词的预处理就开始“伪原创”,肯定是不靠谱。举个例子:“天真”和“纯洁”是近义词。在不分词的情况下,“我有一个天真的表妹”仍然可以伪原创为“我有个纯洁的妹妹”,但“今天真热”处理为“今纯洁热”就是严重不靠谱。

  二、顺序执行引发的单一化。

  无论是网上流行的中文伪原创词库,还是现成的中文伪原创工具,我都试过了,他们的词库格式如下:

image

 

  普通的算法是按照顺序依次替换,那么,如图所示,“凡间”的同义词原本有“尘寰”“尘间”“尘世”三个,但它永远不会被替换成后两个词。

  最最理想的状态是能够根据语境,替换为合适的词。例如“天真”的同义词有“无邪 ”“纯真 ”“纯洁 ”“纯朴”等等,并非每个词在所有语境下都能够完全替换。当然,结合语境是高级自然语言处理的范畴,简单得伪原创能达到次理想状态就算OK:遇到多个同义词的情况,随机替换其中的一个。

  三、词库打架的问题

  我下载了网上流传的大部分词库,收费的、免费的,都尝试了。发现没有人去解决词库打架问题。

image

  什么叫做“词库打架问题”?很简单,看这两组词。

image

  顺序执行替换后,会发现文字兜了一个圈回到了原点……这显然不是我们想要的,但,这个问题在现有的词库、伪原创工具中,非常非常普遍。

  四、可读性太差

  为什么会可读性太差?因为现有的中文伪原创工具,都是通篇全部替换。如果词库里有10万组同义词,程序会遍历一次,把原文中所有能够替换的字符串“榨干”。这样一来虽然伪原创成功了,但可读性无限趋近于零。让我们看这样一组例子:

image

伪原创后:

image

  如果读者直接阅读伪原创后的文字,能够理解吗?

  怎样解决这个问题呢,我想,可以设置一个百分比,或叫做伪原创等级。例如“轻微    柔和    适中    猛烈    变态    面目全非    魂飞魄散”七个等级。用户选择“轻柔”时,只替换100个可替换同义词中的随机10个, 选择“适中”中,替换100个可替换同义词中的随机50个,以此类推。这样就可以让用户自己在“可读性”“原创度”之前自由权衡。

  

我心中的完美中文伪原创工具

功能模块功能说明技术实现
智能分词避免“今天真热”变成“今纯洁热”的问题。可以调用现有的中文分词开源组件。
随机性既便是同一篇文章,每次进行伪原创的结果都不一样。引入随机取词条。
伪原创力度调节定义伪原创的百分比,让用户在“可读性”和“原创度”之间自由权衡。引入等级设置、随机取词条。
词库不要打架避免或降低“发誓”被替换为“立誓”后又被替换回“发誓”的情况发生。放弃顺序执行。
统计统计伪原创后替换了多少词替换时插入标记
标记标记被替换的词,方便查看、校对替换时插入标记

核心程序实现

  考虑以上提到的很多方面的问题,程序还是比较长,接近一万行。下面我只列几段核心的代码供大家参考、讨论。

  一、分词。

  分词其实很容易,因为有很懂开源组件可以使用。我最喜欢的是SCWS。官网地址是http://www.ftphp.com/scws/

  SCWS本来是PHP中文分词解决方案,但它提供了API,我们C#程序猿也可以毫无压力的调用。

  

ExpandedBlockStart.gif View Code
public  static  string Segment( string str)
   {
      System.Text.StringBuilder sb =  new System.Text.StringBuilder();
        try
       {
            string s =  string.Empty;
           System.Net.CookieContainer cookieContainer =  new System.Net.CookieContainer();
            //  将提交的字符串数据转换成字节数组           
            byte[] postData = System.Text.Encoding.ASCII.GetBytes( " data= " + System.Web.HttpUtility.UrlEncode(str) +  " &respond=json&charset=utf8&ignore=yes&duality=no&traditional=no&multi=0 ");

            //  设置提交的相关参数
           System.Net.HttpWebRequest request = System.Net.WebRequest.Create( " http://www.ftphp.com/scws/api.php "as System.Net.HttpWebRequest;
           request.Method =  " POST ";
           request.KeepAlive =  false;
           request.ContentType =  " application/x-www-form-urlencoded ";
           request.CookieContainer = cookieContainer;
           request.ContentLength = postData.Length;

            //  提交请求数据
           System.IO.Stream outputStream = request.GetRequestStream();
           outputStream.Write(postData,  0, postData.Length);
           outputStream.Close();

            //  接收返回的页面
           System.Net.HttpWebResponse response = request.GetResponse()  as System.Net.HttpWebResponse;
           System.IO.Stream responseStream = response.GetResponseStream();
           System.IO.StreamReader reader =  new System.IO.StreamReader(responseStream, System.Text.Encoding.GetEncoding( " utf-8 "));
            string val = reader.ReadToEnd();

           Newtonsoft.Json.Linq.JObject results = Newtonsoft.Json.Linq.JObject.Parse(val);
            foreach ( var item  in results[ " words "].Children())
           {
               Newtonsoft.Json.Linq.JObject word = Newtonsoft.Json.Linq.JObject.Parse(item.ToString());
               sb.Append(word[ " word "].ToString() +  "   ");
           }
       }
        catch
       {
       }

        return sb.ToString();
   }

 

  二、解决词库打架问题。

  这没什么好说的。程序也只有一句话。

image

  三、根据百分比,随机取x条记录。

  取随机记录,最方便的是Mysql数据库,内置的rand()函数可以在select中使用。如果使用SQL Server稍微麻烦些,效率也会低一些。

  参考http://www.rndblog.com/how-to-select-random-rows-in-mysql/

    

  四、替换同义词主函数。

      请看代码里的注释。

  public  string ReplaceArticle( string old,  int strength,  bool markRed,  ref  int replacedcount)
    {

         string newArticle = old ;
         int wordsAmount =  180482; // 词库总量

         int kwcount = Convert.ToInt32(strength *  1.0 /  100 * wordsAmount);   // 根据传入的百分比,计算需要取多少个词
         var dataset = SQLHelper.ExecuteDataset(SQLHelper.connectionString, System.Data.CommandType.Text,  " select * from words order by rand() limit  " + kwcount); // 随机取kwcount组词

         foreach (DataRow r  in dataset.Tables[ 0].Rows)
        {
             // 随机。对于词典中A->B的词组。随机决定本次替换是Replace(A,B)还是Replace(B,A)
             int i =  new Random().Next( 01);
            newArticle = newArticle.Replace(r[i].ToString()
                  ,  string.Format( " <b>{0}</b> ", r[ 1 - i].ToString()));
        }

         // 数被替换的词。
        replacedcount = newArticle.Split( new  string[] {  " </b> " }, StringSplitOptions.None).Length -  1;
         if (!markRed)
        {
             // 如果用户不要求标记,则去掉<b>标记。
            newArticle = newArticle.Replace( " <b> "string.Empty).Replace( " </b> "string.Empty);
        }

         return newArticle;
    }

 

最终程序界面

image

 

 

最后

  如前文所说,中文伪原创几乎是一片空白。希望本文能够启到抛砖引玉的作用,更希望有兴趣的同学能够与我一起继续不断的完善、改进它。

      伯乐伪原创 http://www.bolewei.com/

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值