jieba分词
文章平均质量分 91
jieba分词
不死鸟.亚历山大.狼崽子
太极计算机股份有限公司系统架构师,从事ios、.net、flex、java等开发
展开
-
jieba分词(2):倒排索引算法
见其名知其意,有倒排索引,对应肯定,有正向索引。正向索引(forward index),反向索引(inverted index)更熟悉的名字是倒排索引。在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合(实际上在搜索引擎索引库中,关键词也已经转换为关键词ID)。例如“文档1”经过分词,提取了20个关键词,每个关键词都会记录它在文档中的出现次数和出现位置。正向索引的结构如下:“文档1”的ID > 单词1:出现次数,出现位置列表;单词2:出现次数,出现位置列表;…………。原创 2023-05-07 15:48:03 · 1009 阅读 · 1 评论 -
jieba分词(1):入门案例
大数据量的查询问题假设我们要从商品的表里面查询一个商品我们的数据库里面肯定有个t_goods的表,我们现在利用商品的名称做模糊查询1.1 对于数据库的查询的select * from t_goods where goodsName like “%手机%”;这个查询速度快不快?对于goodsName 是否添加了索引(假设我们添加了)对于上面的sql 语句,是否会走索引?索引的本质是一颗树,若我们使用(“%手机%” ) 查询时,它无法去比较大小,无法比较,就无法走索引!原创 2023-05-06 23:35:10 · 1166 阅读 · 0 评论