python开发搜索引擎_简明Python开发教程(5):用爬虫实现个性化搜索引擎

最新推荐文章于 2021-08-05 22:55:00 发布

weixin_39942335

最新推荐文章于 2021-08-05 22:55:00 发布

阅读量206

点赞数

文章标签： python开发搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39942335/article/details/113980957

版权

相信大家都遇到一个问题——百度搜索的结果可能50%都是广告，今天我们尝试搭建一个个性化搜索引擎。

我们使用网络爬虫来解决该问题，从自动搜索、抓取网页，提取网页内容、按照个性化匹配内容，输出保存，模拟搜索引擎的工作工程。

Python在网络爬虫方面也有很多成熟的库，也有很好的框架可以提供。

Python网络爬虫

Python网络爬虫，通过Python自动获取url的网页html内容，然后用正则表达式分析html，得到你想要的内容，包括url、文字、图片等。

如果必要，就可以对网页内url进行分析，进一步爬取，直到获得自己想要的内容。

当然通过文本语义分析，判断该网页是否是自己想要的内容也很重要。

Python爬取百度首页

今天我们用python3自带的urllib获取url内容。urllib是一组处理URLs的包，其中request模块可以打开和读取url链接。

我们看一下最简单的百度首页爬取示例。

from urllib import request

response = request.urlopen("http://www.baidu.com/") #打开百度首页

html = response.read() #读取响应值

html = html.decode('utf-8') #需要解码decode后，才能正常显示。编码方式可以通过网页查询

我们通过可以查看html的详细内容，如

In[23]: html[:20]

Out[23]: '\n

weixin_39942335

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python开发搜索引擎_简明Python开发教程(5):用爬虫实现个性化搜索引擎

相信大家都遇到一个问题——百度搜索的结果可能50%都是广告，今天我们尝试搭建一个个性化搜索引擎。我们使用网络爬虫来解决该问题，从自动搜索、抓取网页，提取网页内容、按照个性化匹配内容，输出保存，模拟搜索引擎的工作工程。Python在网络爬虫方面也有很多成熟的库，也有很好的框架可以提供。Python网络爬虫Python网络爬虫，通过Python自动获取url的网页html内容，然后用正则表达式分析ht...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。