前言
最近做了一个python3作业题目,涉及到:
网页爬虫
网页中文文字提取
建立文字索引
关键词搜索
涉及到的库有:
爬虫库:requests
解析库:xpath
正则:re
分词库:jieba
...
放出代码方便大家快速参考,实现一个小demo。
题目描述
搜索引擎的设计与实现
输入:腾讯体育的页面链接,以列表的方式作为输入,数量不定,例如:
["http://fiba.qq.com/a/20190420/001968.htm",
"http://sports.qq.com/a/20190424/000181.htm",
"http://sports.qq.com/a/20190423/007933.htm",
"http://new.qq.com/omn/SPO2019042400075107"]
过程:网络爬虫,页面分析、中文提取分析、建立索引,要求应用教材中的第三方库,中间过程在内存中完成,输出该过程的运行时间;
检索:提示输入一个关键词进行检索;
输出:输入的链接列表的按照关键词的出现频率由高到低排序输出,并以JSON格式输出词频信息等辅助信息;未出现关键词的文档链接不输出,最后输出检索时间,例如:
1 "http:xxxxxx.htm" 3
2 "https:xxxx.htm" 2
3 "https:xxxxx.htm" 1</