从谷歌搜索结果页中提取url与域名

最新推荐文章于 2023-11-08 22:00:11 发布

Ailsa2019

最新推荐文章于 2023-11-08 22:00:11 发布

阅读量2.2k

点赞数

文章标签： python xpath

本文链接：https://blog.csdn.net/Ailsa2019/article/details/117839341

版权

本文介绍了如何使用Python和XPath从谷歌搜索结果中提取URL和域名。首先，通过官方渠道下载并安装Python及第三方库lxml。接着，在谷歌搜索后，保存搜索结果为html文件。然后编写Python脚本，利用XPath解析HTML提取所需信息，并将结果保存到txt文件。此外，还提供了一个无需安装Python的封装程序供用户使用，以及如何通过浏览器获取准确的XPath路径。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

标题Python的下载、安装、运行

官方下载地址：https://www.python.org/downloads/
如果操作系统为Windows，可以直接点黄色按钮下载最新版的Python。如果是其它操作系统，或者想要下载旧版本，点击白色框框里的链接，找到想要的版本下载即可。
双击安装包，进入安装界面。可以选择直接安装或自定义安装。记得勾选安装界面底下两个选项，方便日后安装第三方库
安装第三方库
【开始】菜单——运行——输入CMD——确定
在打开的窗口中输入【pip install lxml】，回车，等待第三方库安装成功

恭喜，你已经成功安装了Python，并且安装了接下来要用到的第三方库lxml，还学会了安装第三方库的方法。下面我们开始搜索并提取信息吧

搜索与信息提取

在谷歌上搜索一个关键词。为了一次性获取更多结果，我把搜索结果数量设置为100个
结果页空白处右击——查看源文件——复制全文【Ctrl+A】——粘贴到txt文件，保存为【html.txt】
在【开始】菜单找到IDLE，单击打开
新建一个py文件。在菜单栏依次点击File——New File，或者使用快捷键【Ctrl+N】
把以下代码粘贴到新文件里，然后按快捷键【Ctrl+S】保存，文件名为【test.py】

from lxml import etree

def collect_domains():
   html = open("html.txt", 'rb').read()
   html = etree.HTML(html)
   path = '//*[@id="rso"]/div[*]/div/div/div[1]/a/div/cite'
   elements = html.xpath(path)
   urls = [element.text for element in elements]
   
   rows = ""
   for url in urls:
       domain = url.split("/")[-1]
       if domain.startswith("www."): domain = domain[4:]
       rows = rows + f"