Lucene Steming分词(包含单复数 snowball)


var words = StringStemHelper.Stemming(s,null,true, LanguageOp.DE); //German


public class LanguageOp
    {
        private string _languageName;


        public string Language
        {
            get
            {
                return _languageName;


            }
        }


        public static readonly LanguageOp En = new LanguageOp() { _languageName = "English" };
        public static readonly LanguageOp DE = new LanguageOp() { _languageName = "German" };
        public static readonly LanguageOp DE2 = new LanguageOp() { _languageName = "German2" };
        public static readonly LanguageOp FR = new LanguageOp() { _languageName = "French" };

    }

public static List<string> Stemming(string input, ISet<string> stopWords = null, bool lowerCase = false, LanguageOp lang = null)
        {
            var result = new List<string>();


            using (var ts =
ToTokenStream(input, stopWords, lowerCase, lang))
            {
                while (ts.IncrementToken())
                {
                    var term = ts.GetAttribute<ITermAttribute>().Term;
                    if (!string.IsNullOrWhiteSpace(term))
                    {
                        result.Add(term);
                    }
                }
            }


            return result;
        }

private static TokenStream ToTokenStream(string text, ISet<string> stopSet, bool lowerCase = false, LanguageOp lang = null)
        {
            if (lang == null)
            {
                lang = LanguageOp.En;
            }
            var version = Lucene.Net.Util.Version.LUCENE_30;
            var reader = new StringReader(text);


            var stopWFlat = false;
            if (stopSet == null && lang == null)
            {
                stopSet = EnglishStopWordSet;
                stopWFlat = true;
            }


            TokenStream tokenStream = new StandardTokenizer(version, reader);
            ((StandardTokenizer)tokenStream).MaxTokenLength = 255;


            if (lowerCase)
            {
                tokenStream = new StandardFilter(tokenStream);
                tokenStream = new LowerCaseFilter(tokenStream);
            }


            if (stopWFlat)
            {
                tokenStream = new StopFilter(true, tokenStream, stopSet);
            }
            tokenStream = new SnowballFilter(tokenStream, lang.Language);


            return tokenStream;
        }


DLL REFERENCE

Lucene.Net

Lucene.Net.Contrib.Analyzers

Lucene.Net.Contrib.Snowball


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值