python搜索网页关键词_新闻网页Python爬虫(jieba分词+关键词搜索排序)

前言

最近做了一个python3作业题目,涉及到:

网页爬虫

网页中文文字提取

建立文字索引

关键词搜索

涉及到的库有:

爬虫库:requests

解析库:xpath

正则:re

分词库:jieba

...

放出代码方便大家快速参考,实现一个小demo。

题目描述

搜索引擎的设计与实现

输入:腾讯体育的页面链接,以列表的方式作为输入,数量不定,例如:

["http://fiba.qq.com/a/20190420/001968.htm",

"http://sports.qq.com/a/20190424/000181.htm",

"http://sports.qq.com/a/20190423/007933.htm",

"http://new.qq.com/omn/SPO2019042400075107"]

过程:网络爬虫,页面分析、中文提取分析、建立索引,要求应用教材中的第三方库,中间过程在内存中完成,输出该过程的运行时间;

检索:提示输入一个关键词进行检索;

输出:输入的链接列表的按照关键词的出现频率由高到低排序输出,并以JSON格式输出词频信息等辅助信息;未出现关键词的文档链接不输出,最后输出检索时间,例如:

1 "http:xxxxxx.htm" 3

2 "https:xxxx.htm" 2

3 "https:xxxxx.htm" 1</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值