mongodb搭建校内搜索引擎——爬取网页文本

最新推荐文章于 2024-07-23 09:10:53 发布

申涛

最新推荐文章于 2024-07-23 09:10:53 发布

阅读量1k

点赞数 2

分类专栏： mongodb搭建文章标签：爬虫 url mongodb python2-7 搜索引擎

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wang_shen_tao/article/details/50636222

版权

目标：
读取excle文档中存储的url列表，爬取列表中网页的文本内容

概要：
在已经在获得爬虫获取的url列表的工作基础上，进行网页内容的获取。编程用到request（获取网页源码），BeautifulSoup(解析html,并且获取网页纯文本)，lxml（解析html，在使用BeautifulSoup要预先安装），Xlrd(读取excle中内容)

我的思考：
一开始想用正则表达式来判断并且获的网页源码中的内容，但是发现自己的需求是获取所有纯文本的内容，刚开始接触爬虫时尝试过用，当你的需求是提取标题，或者特定单一的内容时，使用正则表示式还是可行的。考虑到我的要求是提取所有的文本内容，正则表达式就是比较局限，要考虑的情况较多，难免会有遗漏，所有去google有没有现有的python模块能干这种事。
果然，找到如下内容：

BeautifulSoup简介

在这里附上BeautifulSoup的中文文档使用链接：
BeautifulSoup4.2.0中文文档
在这里我只是使用了最为简单的方法实现，BeautifulSoup不仅实现了我的需求，而且远比我想象的还要强大。

代码：

最低0.47元/天解锁文章

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。