ASP.NET/C#实现搜索功能

24 篇文章 0 订阅

描述:我们现在开发的项目中几乎都会有搜索的这个需求,就像我们平时用的百度,谷歌这些都是满足我们平时的搜索需求的。当然在我们的项目中我们不可能利用百度,谷歌的搜索来实现自己项目中的搜索的,这时我们就需要自己进行开发实现这项功能了。那么怎样实现呢,其实现在现在我们有很多成熟的搜索算法,不必自己去研究,只需要自己修改那些大神写的代码就Ok啦。言归正传,下面介入正题。

搜索的功能我是用Lucene.Net和盘古分词二者的结合实现的。后面我会把相关的插件上传大家可以下载。

什么是Lucene.Net:

Lucene.Net是由Java版本的Lucene(卢思银)移植过来的,所有的类和方法都是和Lucene里的几乎一模一样。Lucene.Net只是一个全文检索开发包,不是一个成型的搜索引擎,它的功能就是把数据扔给Lucene.Net,我们查询数据的时候从Lucene.Net查询数据,可以将它看为一个全文检索的数据库。用户可以基于Lucene.Net开发满足自己的需求搜索引擎。Lucene.Net只能对文本信息进行检索,如果不是文本信息就需要转换为文本信息。(比如:要检索Excle文件,就要用NPO把Excle文件读取成字符串,然后把字符串交给Lucene.Net处理)。转换好的字符串Lucene.Net会把它的文本进行切词保存,加快检索速度。因为查询的时候先查询的分词,然后根据所找出对应的分词搜索出对应的用户所要找的内容。

Lucene.Net这样的优点:

①:效率高。

②:匹配程度高(可以嵌入分词的算法提高匹配程度)

什么是分词:

分词是核心算法,搜索引擎内部保存的就是一个个的词,一般英文的分词很容易,按照空格分隔就可以,在汉语中就比较麻烦。比如:把中国位列世界前茅,通过分词就拆分为:中国,位列,世界,前茅,这四个词,拆分的词要和Lunece.Net进行匹配,然后找出相关的内容。当然想那些无意义的词都不参与分词(比如:啊,the).

在Lunece.Net的不同的分词算法就是不同的类。所有的分词算法都是从Lucene.Net中继承,不同的分词算法有着不同的优点

一元分词:

在Lucene.Net 中有一个内置的分词算法,就是一元分词算法(StandardAnalyzer这个类)是将英文按照空格,标点符号等进行分词,将中文按照单个字进行分词,一个汉字算一个词,这种分词现在几乎是不用的。

二元分词:

二元分词算法,是每两个汉字算一个单词,网上的CJKAnalyzer这个类就是实现二元分词的。当然这个在现在的项目中也是几乎不用的。

基于词库的分词算法:

就是基于一个词库进行分词们可以提高分词的成功率,但是效率有点低。有庖丁解牛,盘古分词等。

注意:目前没有三元分词的算法,继一元分词和二元分词就是词库算法。

以上就是分词的基本的概念以及各个分词的优缺点,下面开始进入代码实现

代码实现:

一元分词的代码实现:

      /// <summary>
        /// 一元分词
        /// </summary>
        /// <param name="sender"></param>
        /// <param name="e"></param>
        private void button1_Click(object sender, EventArgs e)
        {
            Analyzer analyer = new StandardAnalyzer();//创建一元分词的对象
            TokenStream tokenStream = analyer.TokenStream("",new System.IO.StringReader("中国位列世界前茅"));
            Lucene.Net.Analysis.Token token = null;
            while ((token = tokenStream.Next()) != null)
            {
                Console.WriteLine(token.TermText());
            }
        }

 

效果截图:

二元分词代码实现:

二元分词和一元分词几乎一样就是new的实例不一样。二元分词的使用需要添加两个类

 /// <summary>
        /// 二元分词
        /// </summary>
        /// <param name="sender"></param>
        /// <param name="e"></param>
        private void button2_Click(object sender, EventArgs e)
        {
            Analyzer analyer = new CJKAnalyzer();//创建二元分词的对象
            TokenStream tokenStream = analyer.TokenStream("", new System.IO.StringReader("河南,雄ci峙天东"));
            Lucene.Net.Analysis.Token token = null;
            while ((token = tokenStream.Next()) != null)
            {
                Console.WriteLine(token.TermText());
            }
        }

CJKAnalyzer 类:

using System.Collections;
using System.IO;

using Lucene.Net.Analysis;

namespace NSharp.SearchEngine.Lucene.Analysis.Cjk
{
    public class CJKAnalyzer : Analyzer
    {
        public static string[] STOP_WORDS = {
                                                 "a", "and", "are", "as", "at", "be",
                                                 "but", "by", "for", "if", "in",
                                                 "into", "is", "it", "no", "not",
                                                 "of", "on", "or", "s", "such", "t",
                                                 "that", "the", "their", "then",
                                                 "there", "these", "they", "this",
                                                 "to", "was", "will", "with", "",
                                                 "www"
                                             };

        private Hashtable stopTable;
        public CJKAnalyzer()
        {
            stopTable = StopFilter.MakeStopSet(STOP_WORDS);
        }
        public CJKAnalyzer(string[] stopWords)
        {
            stopTable = StopFilter.MakeStopSet(stopWords);
        }
        public override TokenStream TokenStream(string fieldName, TextReader reader)
        {
            TokenStream ts = new CJKTokenizer(reader);
            return new StopFilter(ts, stopTable);

        }
    }
}

CJKTokenizer类: 

using System;
using System.Collections;
using System.IO;

using Lucene.Net.Analysis;


namespace NSharp.SearchEngine.Lucene.Analysis.Cjk
{
    public class CJKTokenizer:Tokenizer
    {
        private static int MAX_WORD_LEN = 255;
        private static int IO_BUFFER_SIZE = 256;
        private int offset = 0;
        private int bufferIndex = 0;
        private int dataLen = 0;
        private char[] buffer = new char[MAX_WORD_LEN];
        private char[] ioBuffer = new char[IO_BUFFER_SIZE];
        private string tokenType = "word";
        private bool preIsTokened = false;
        public CJKTokenizer(TextReader reader)
        {
            input = reader;
        }
        public override Token Next()
        {
          
            int length = 0;
            int start = offset;

            while (true)
            {
                
                char c;
                offset++;
                if (bufferIndex >= dataLen )
                {
                    if (dataLen==0 || dataLen>=ioBuffer.Length)//Java中read读到最后不会出错,但.Net会,所以此处是为了拦截异常
                    {
                        dataLen = input.Read(ioBuffer,0,ioBuffer.Length);
                        bufferIndex = 0;
                    }
                    else
                    {
                        dataLen=0;
                    }
                }

                if (dataLen ==0)
                {
                    if (length > 0)
                    {
                        if (preIsTokened == true)
                        {
                            length = 0;
                            preIsTokened = false;
                        }

                        break;
                    }
                    else
                    {
                        return null;
                    }
                }
                else
                {
                    //get current character
                    c = ioBuffer[bufferIndex++];
                }


                if (IsAscii(c) || IsHALFWIDTH_AND_FULLWIDTH_FORMS(c))
                {
                    if (IsHALFWIDTH_AND_FULLWIDTH_FORMS(c))
                    {
                        int i = (int) c;
                        i = i - 65248;
                        c = (char) i;
                    }
                    if (char.IsLetterOrDigit(c) || ((c == '_') || (c == '+') || (c == '#')))
                    {

                        if (length == 0)
                        {
                            start = offset - 1;
                        }
                        else if (tokenType == "double")
                        {
                            offset--;
                            bufferIndex--;
                            tokenType = "single";

                            if (preIsTokened == true)
                            {
                                length = 0;
                                preIsTokened = false;

                                break;
                            }
                            else
                            {
                                break;
                            }
                        }
                        buffer[length++] = char.ToLower(c);
                        tokenType = "single";
                        if (length == MAX_WORD_LEN)
                        {
                            break;
                        }
                    }
                    else if (length > 0)
                    {
                        if (preIsTokened == true)
                        {
                            length = 0;
                            preIsTokened = false;
                        }
                        else
                        {
                            break;
                        }
                    }

                }
                else
                {
                    if (char.IsLetter(c))
                    {
                        if (length == 0)
                        {
                            start = offset - 1;
                            buffer[length++] = c;
                            tokenType = "double";
                        }
                        else
                        {
                            if (tokenType == "single")
                            {
                                offset--;
                                bufferIndex--;

                                //return the previous ASCII characters
                                break;
                            }
                            else
                            {
                                buffer[length++] = c;
                                tokenType = "double";

                                if (length == 2)
                                {
                                    offset--;
                                    bufferIndex--;
                                    preIsTokened = true;

                                    break;
                                }
                            }
                        }
                    }
                    else if (length > 0)
                    {
                        if (preIsTokened == true)
                        {
                            // empty the buffer
                            length = 0;
                            preIsTokened = false;
                        }
                        else
                        {
                            break;
                        }
                    }
                }
            }

            return new Token(new String(buffer, 0, length), start, start + length,
                tokenType
                );
        }

        public bool     IsAscii(char c)
        {
            return c<256 && c>=0;
        }

        public bool IsHALFWIDTH_AND_FULLWIDTH_FORMS(char c)
        {
            return c<=0xFFEF && c>=0xFF00;
        }
    }
}

效果截图:

基于词库的分词:这里展示盘古分词

代码实现:

/// <summary>
        /// 盘古分词,这个分词算法分出来的词都是很标准的
        /// </summary>
        /// <param name="sender"></param>
        /// <param name="e"></param>
        private void button3_Click(object sender, EventArgs e)
        {
            Analyzer analyer = new PanGuAnalyzer();//创建词库
            TokenStream tokenStream = analyer.TokenStream("", new System.IO.StringReader("中国位列世界前茅"));
            Lucene.Net.Analysis.Token token = null;
            while ((token = tokenStream.Next()) != null)
            {
                Console.WriteLine(token.TermText());
            }
        }

注意:使用盘古分词需要引入dll文件

效果截图:

以上就是分词的使用,使用分词的目的就是将用户输入的数据进行分割,然后从词库里对比找出的词,最后通过Lucene.Net找出相关的内容,展示给用户。

还有分词算法的是使用多需要用到一个名字为Dict的文件夹以及里面的内容。该文件夹需要刚在项目的根目录下以及项目的bin文件夹下,Dict问价夹之后我会上传供大家下载。

Lucene.Net的使用:

需要创建两个文件夹,一个存放数据(就是用户可能想搜索的内容,文件夹中的文本必须是.txt纯文本的),另一个文件夹用户存放利用Lucene.Net进行转换的文本内容,就是把.txt文本换了另一种格式进行保存,用户所搜索的内容都是在这个文件夹里的。

截图展示:

使用Lucene.Net在项目中还需要引入一个程序集:

截图展示:

现在大家可能有一个问题,就是怎样将txt文本转换为另一种格式呢?实际上转化格式就是添加一个词库,因为我们不能操作txt文件直接利用Lucene进行查询,所以我们需要转换下。添加词库后,存放转换的文件夹会多出几个文件。现在我就给大家用代码实现:

 /// <summary>
        /// 添加词库
        /// </summary>
        /// <param name="sender"></param>
        /// <param name="e"></param>
        private void button4_Click(object sender, EventArgs e)
        {
            //下面这个路径我是写死的,文件夹也是手动创建的,大家也可以自己用代码创建
            string indexPath = @"C:\Users\Administrator\Desktop\搜索实现\lucenedir";//注意和磁盘上文件夹的大小写一致,否则会报错。将创建的分词内容放在该目录下。
            Lucene.Net.Store.FSDirectory directory = FSDirectory.Open(new DirectoryInfo(indexPath), new NativeFSLockFactory());//指定索引文件(打开索引目录) FS指的是就是FileSystem
            bool isUpdate = IndexReader.IndexExists(directory);//IndexReader:对索引进行读取的类。该语句的作用:判断索引库文件夹是否存在以及索引特征文件是否存在。
            if (isUpdate)
            {
                //同时只能有一段代码对索引库进行写操作。当使用IndexWriter打开directory时会自动对索引库文件上锁。
                //如果索引目录被锁定(比如索引过程中程序异常退出),则首先解锁(提示一下:如果我现在正在写着已经加锁了,但是还没有写完,这时候又来一个请求,那么不就解锁了吗?这个问题后面会解决)
                if (IndexWriter.IsLocked(directory))
                {
                    IndexWriter.Unlock(directory);
                }
            }
            IndexWriter writer = new IndexWriter(directory, new PanGuAnalyzer(), !isUpdate, Lucene.Net.Index.IndexWriter.MaxFieldLength.UNLIMITED);//向索引库中写索引。这时在这里加锁。
            for (int i = 1; i <= 3; i++)
            {
                //下面的语句是读取自己所写的词库文件(注意都是纯文本的)
                string txt = File.ReadAllText(@"C:\Users\Administrator\Desktop\搜索实现\词库文件\" + i + ".txt", System.Text.Encoding.Default);//注意这个地方的编码
                Document document = new Document();//表示一篇文档。
                //Field.Store.YES:表示是否存储原值。只有当Field.Store.YES在后面才能用doc.Get("number")取出值来.Field.Index. NOT_ANALYZED:不进行分词保存
                document.Add(new Field("number", i.ToString(), Field.Store.YES, Field.Index.NOT_ANALYZED));

                //Field.Index. ANALYZED:进行分词保存:也就是要进行全文的字段要设置分词 保存(因为要进行模糊查询)

                //Lucene.Net.Documents.Field.TermVector.WITH_POSITIONS_OFFSETS:不仅保存分词还保存分词的距离。
                document.Add(new Field("body", txt, Field.Store.YES, Field.Index.ANALYZED, Lucene.Net.Documents.Field.TermVector.WITH_POSITIONS_OFFSETS));
                writer.AddDocument(document);

            }
            writer.Close();//会自动解锁。
            directory.Close();//不要忘了Close,否则索引结果搜不到
        }

效果展示:

原有的txt文本:

生成的对应的词库:

终于到最后一步搜索了:

代码实现:

 public List<ViewModel> ShowSearchContent()
        {
            string indexPath = @"C:\Users\Administrator\Desktop\搜索实现\lucenedir";//拿到自己创建的存放Lucene.Net文件的路径,下面将分好的词与之对比搜索出相应的内容。
            string kw = Request["txtSearch"];//对用户输入的搜索条件进行拆分。这个搜索效果不好,利用盘古分词进进一步拆分用户输入的文本信息
            List<string> wordsList = PanGu(kw);//调用盘古分词,对用户输入的内容进行分词
            FSDirectory directory = FSDirectory.Open(new DirectoryInfo(indexPath), new NoLockFactory());
            IndexReader reader = IndexReader.Open(directory, true);
            IndexSearcher searcher = new IndexSearcher(reader);
            //搜索条件
            PhraseQuery query = new PhraseQuery();//这个类是单个查询,只能查内容里有搜索关键字的文章,或者标题包含关键词的
            foreach (var item in wordsList)
            {
                query.Add(new Term("body",item));//body中含有item的文章
                query.SetSlop(100);//多个查询条件的词之间的最大距离.在文章中相隔太远 也就无意义.(例如 “大学生”这个查询条件和"简历"这个查询条件之间如果间隔的词太多也就没有意义了。) 
            }
            TopScoreDocCollector collector = TopScoreDocCollector.create(1000, true);
            searcher.Search(query, null, collector);//根据query查询条件进行查询,查询结果放入collector容器
            ScoreDoc[] docs = collector.TopDocs(0, collector.GetTotalHits()).scoreDocs;//得到所有查询结果中的文档,GetTotalHits():表示总条数   TopDocs(300, 20);//表示得到300(从300开始),到320(结束)的文档内容.
            //可以用来实现分页功能
            List<ViewModel> modelList = new List<ViewModel>();
            for (int i = 0; i < docs.Length; i++)
            {
                ViewModel model = new ViewModel();
                //
                //搜索ScoreDoc[]只能获得文档的id,这样不会把查询结果的Document一次性加载到内存中。降低了内存压力,需要获得文档的详细内容的时候通过searcher.Doc来根据文档id来获得文档的详细内容对象Document.
                int docId = docs[i].doc;//得到查询结果文档的id(Lucene内部分配的id)
                Document doc = searcher.Doc(docId);//找到文档id对应的文档详细信息
                model.number = docId;
                model.body = doc.Get("body");
                modelList.Add(model);
            }
            return modelList;
        }
        /// <summary>
        /// /将用户输入的很长的一段话进行盘古分词,根据分过的词进行查找
        /// </summary>
        /// <returns></returns>
        public List<string> PanGu(string words)
        {
            Analyzer analyer = new PanGuAnalyzer();//创建词库
            TokenStream tokenStream = analyer.TokenStream("", new System.IO.StringReader(words));
            Lucene.Net.Analysis.Token token = null;
            List<string> wordsList = new List<string>();
            while ((token = tokenStream.Next()) != null)
            {
                wordsList.Add(token.TermText());
                //Console.WriteLine(token.TermText());
            }
            return wordsList;
        }

效果展示:

 

到此为止,整个搜索及其相关的知识就完了,收工吃饭,嘿嘿!!

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值