python使用Elasticsearch对wikipedia的数据进行检索(详细流程)
1 先下载wikipediawikepedia下载链接2 利用wikiextractor将其提取出来$git clone https://github.com/attardi/wikiextractor$python wikiextractor/WikiExtractor.py INPUT_FILE -o OUTPUT_PATH --json3 将wikidedia的数据进行清洗,具体做法如下首先用下面的代码去除doc和空格,只保留文本def deal_enwiki(read_path,
原创
2020-09-23 21:40:39 ·
948 阅读 ·
0 评论