在查询所有包含“悟空”的语句时,我们使用以下的 SQL 语句:
SELECT * FROM tbl_like WHERE txt LIKE ‘%悟空%’
该语句无法利用到索引,所以查询非常慢,需要 2.7 秒:
遗憾的是,我们并没有一个简单的办法可以优化这个查询。但没有简单的办法,并不代表没有办法。解决办法之一就是:分词+倒排索引。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。
以上两段让人摸不着头脑的文字来自百度百科,你可以和我一样选择忽略他。
我们不需要特别高超的分词技巧,因为汉语的特性,我们只需“二元”分词即可。
所谓二元分词,即将一段话中的文字每两个字符作为一个词来分词。还是以“防着古海回来再抓孙悟空”这句话为例,进行二元分词之后,得到的结果是:防着、着古、古海,海回,回来,来再,再抓,抓孙,孙悟,悟空。使用 C# 简单实现一下:
public static List Cut(String str)
{
var list = new List();
var buffer = new Char[2];
for (int i = 0; i < str.Length - 1; i++)
{
buffer[0] = str[i];
buffer[1] = str[i + 1];
list.Add(new String(buffer));
}
return list;
}
测试一下结果:
我们需要一张数据表,把分词后的词条和原始数据对应起来,为了获得更好的效率,我们还用到了覆盖索引:
CREATE TABLE tbl_like_word (
[id] int identity,
[rid] int NOT NULL,
[word] nchar(2) NOT NULL,
PRIMARY KEY CLUSTERED ([id])
);
CREATE INDEX tbl_like_word_word_idx ON tbl_like_word(word,rid);-- 覆盖索引(Covering index)
以上 SQL 语句创建了一张名为 ”tbl_like_word“的数据表,并为其 ”word“和“rid”列增加了联合索引。这就是我们的倒排表,接下来就是为其填充数据。
我们需要先用 LINQPad 自带的数据库链接功能链接至数据库,之后就可以在 LINQPad 中与数据库交互了。首先按 Id 顺序每 3000 条一批读取 tbl_like 表中的数据,对 txt 字段的值分词后生成 tbl_like_word 所需的数据,之后将数据批量入库。完整的 LINQPad 代码如下:
void Main()
{
var maxId = 0;
const int limit = 3000;
var wordList = new List<Tbl_like_word>();
while (true)
{
$“开始处理:{maxId} 之后 {limit} 条”.Dump(“Log”);
//分批次读取
var items = Tbl_likes
.Where(i => i.Id > maxId)
.OrderBy(i => i.Id)
.Select(i => new { i.Id, i.Txt })
.Take(limit)
.ToList();
if (items.Count == 0)
{
break;
}
//逐条生产
foreach (var item in items)
{
maxId = item.Id;
//单个字的数据跳过
if (item.Txt.Length < 2)
{
continue;
}
var words = Cut(item.Txt);
wordList.AddRange(words.Select(str => new Tbl_like_word { Rid = item.Id, Word = str }));
}
}
“处理完毕,开始入库。”.Dump(“Log”);
this.BulkInsert(wordList);
SaveChanges();
“入库完成”.Dump(“Log”);
}
// Define other methods, classes and namespaces here
public static List Cut(String str)
{
var list = new List();
var buffer = new Char[2];
for (int i = 0; i < str.Length - 1; i++)
{
buffer[0] = str[i];
buffer[1] = str[i + 1];
list.Add(new String(buffer));
}
return list;
}
以上 LINQPad 脚本使用 Entity Framework Core 连接到了数据库,并引用了 NuGet 包“EFCore.BulkExtensions”来做数据批量插入。
之后,就可以把查询安排上,先查询倒排索引,然后关联到主表:
SELECT TOP 10 * FROM tbl_like WHERE id IN (
SELECT rid FROM tbl_like_word WHERE word IN (‘悟空’))
查询速度很快,仅需十几毫秒:
因为我们将所有的语句分成了二字符词组,所以当需要对单个字符模糊查询时,直接使用 LIKE 是一个更加经济的方案。如果需要查询的字符多于两个时,就需要对查询词进行分词。如需查询“东土大唐”一词,构造出的查询语句可能会是这样:
SELECT TOP 10*FROM tbl_like WHERE id IN (
SELECT rid FROM tbl_like_word WHERE word IN (‘东土’,‘土大’,‘大唐’))
但是,该查询并不符合我们的预期,因为其将只包含“土大”的语句也筛选了出来:
小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数初中级Java工程师,想要提升技能,往往是自己摸索成长,但自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年最新Java开发全套学习资料》送给大家,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频
如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注Java)
最后
710760980958)]
[外链图片转存中…(img-9oLOi4aW-1710760980958)]
[外链图片转存中…(img-66rihyMR-1710760980959)]
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频
如果你觉得这些内容对你有帮助,可以添加下面V无偿领取!(备注Java)
[外链图片转存中…(img-tXR8yX0Q-1710760980959)]
最后
[外链图片转存中…(img-beXaA3ZZ-1710760980960)]