python爬取整个网站的广告敏感词_Python爬取百度搜索帮助解决剔除广告难题，网友留言：感激不尽...

最新推荐文章于 2021-10-13 17:55:33 发布

weixin_39626745

最新推荐文章于 2021-10-13 17:55:33 发布

阅读量320

点赞数

文章标签： python爬取整个网站的广告敏感词

百度搜索

利用Python净化百度搜索结果。。。

既然是净化。。。

广告什么的当然要通通剔除啦。。。

至于为什么要做这个。。。

大概是因为昨天留言中有人提到了这个。。。

所以。。。

just have a try!

相关文件关注+转发此文，然后私信回复"07"就可以获取了

主要思路

利用Python处理百度搜索关键字后返回的页面，提取其中的有效信息。

有效信息包括：

剔除广告等无用链接后的有用链接以及这些有用链接的标题信息。

后续处理：

毕竟一千个读者就有一千个哈姆雷特，所以我只举一个简单的利用这些有效信息的例子。

至于是什么例子。。。

继续看下去就知道了呗~~~

开发工具

Python版本：3.5.4

相关模块：

requests模块、bs4模块、win_unicode_console模块、PyQt5模块以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量，pip安装需要的相关模块即可。

使用方式

(1)直接运行

功能：

在cmd窗口运行BaiduSearch_Spider.py文件后，根据提示输入相关信息后将得到的有效信息保存到results.txt文件中。

若需其他功能请自行修改源代码。

运行示例如下图所示：

实例

结果：

结果

(2)作为模块导入

使用示例如下图所示：

部分代码

运行以及结果图：

结果图

说明与简单实例

返回的数据格式为：

数据格式

简单实例：

功能：

(1)在cmd窗口中运行并展示获得的有效信息；

(2)根据有效信息选择想要了解的链接后将该链接网站在PyQt制作的简易Demo中显示。

结果图：

结果图

结果图

更多

有兴趣的朋友可以进一步修改我提供的源代码，做个洁净版的百度搜索浏览器(T_T怎么感觉这么绕口呢)。。。

当然有其他想法也可以大胆地去尝试实现？？？

欢迎评论区交流？？？

weixin_39626745

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬取整个网站的广告敏感词_Python爬取百度搜索帮助解决剔除广告难题，网友留言：感激不尽...

百度搜索利用Python净化百度搜索结果。。。既然是净化。。。广告什么的当然要通通剔除啦。。。至于为什么要做这个。。。大概是因为昨天留言中有人提到了这个。。。所以。。。just have a try!相关文件关注+转发此文，然后私信回复"07"就可以获取了主要思路利用Python处理百度搜索关键字后返回的页面，提取其中的有效信息。有效信息包括：剔除广告等无用链接后的有用链接以及这些有用链接的标题信...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。