基于关键词的whoosh创建和搜索

愚昧之山绝望之谷开悟之坡

于 2021-07-07 15:57:57 发布

阅读量142

点赞数

分类专栏： python 工具 NLP基础知识

本文链接：https://blog.csdn.net/qq_15821487/article/details/118548768

版权

python 同时被 3 个专栏收录

344 篇文章 10 订阅

订阅专栏

工具

291 篇文章 2 订阅

订阅专栏

NLP基础知识

133 篇文章 9 订阅

订阅专栏

创建索引可以先分词，用KEYWORD的类型存储，commas=True可以是空格也可以是逗号可配置，stored=True配置是否和doc存在一起，返回可以一起返回

        if not exists_in(index_dir):
            data_dir = '***'
            df_csv = pd.read_csv(data_dir, usecols=['***', '***', '***', '***', '***', '***'])
            schema = Schema(wid=ID(stored=True), catagory=TEXT(stored=True),
                            classes=TEXT(stored=True), level=TEXT(stored=True),
                            keywords=KEYWORD(commas=True), simwords=KEYWORD(commas=True))
            ix = create_in(index_dir, schema)
            writer = ix.writer()
            for i in range(len(df_csv)):
                writer.add_document(wid=str(df_csv['***'][i]), catagory=df_csv['***'][i],
                                    classes=df_csv['***'][i],
                                    level=df_csv['***'][i],
                                    keywords=re.sub(r"[\[\]\']", '', df_csv['***'][i]),
                                    simwords=re.sub(r"[\[\]\']", '', df_csv['***'][i]))
            writer.commit()
        else:
            ix = open_dir(index_dir)


        with ix.searcher() as searcher:
            query = QueryParser('***', ix.schema).parse(word)
            results = searcher.search(query, limit=None)
            for result in results:
                print(result.fields())

https://whoosh.readthedocs.io/en/latest/api/fields.html#whoosh.fields.ID
commas=True

愚昧之山绝望之谷开悟之坡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于关键词的whoosh创建和搜索

创建索引可以先分词，用KEYWORD的类型存储，commas=True可以是空格也可以是逗号可配置，stored=True配置是否和doc存在一起，返回可以一起返回 if not exists_in(index_dir): data_dir = '***' df_csv = pd.read_csv(data_dir, usecols=['***', '***', '***', '***', '***', '***'])
复制链接

扫一扫