C#使用Lucene中文分词

准备工作

NuGet引入Lucene.Net包。

开始搭建

几个中文分词的类:ChineseAnalyzer、ChineseTokenizer、WordTree

如何插入一段漂亮的代码片

ChineseAnalyzer 类
public class ChineseAnalyzer : Analyzer
    {
   
        private static string NoisePath = Environment.CurrentDirectory + "\\data\\sNoise.txt";

        private string keywords = "";

        public ChineseAnalyzer(string keywords)
        {
   
            this.keywords = keywords;
        }

        public static Hashtable chartable = new Hashtable();

        private void GetNoise()
        {
   
            long dt_s = DateTime.Now.Ticks;
            string char_s;
            StreamReader reader = new StreamReader(NoisePath, System.Text.Encoding.UTF8);
            string word = reader.ReadLine();
            while (word != null && word.Trim() != "")
            {
   
                Hashtable t_chartable = chartable;
                for (int i = 0; i < word.Length; i++)
                {
   
                    char_s = word.Substring(i, 1);
                    if (!t_chartable.Contains(char_s))
                    {
   
                        t_chartable.Add(char_s, new Hashtable());
                    }
                    t_chartable = (Hashtable)t_chartable[char_s];
                }
                word = reader.ReadLine();
            }
            reader.Close();
        }

        public override TokenStream TokenStream(System.String fieldName, System.IO.TextReader reader)
        {
   
            GetNoise();
            TokenStream result = new ChineseTokenizer(reader, keywords);
            result = new StandardFilter(result);
            result = new 
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值