从谷歌搜索结果页中提取url与域名

本文介绍了如何使用Python和XPath从谷歌搜索结果中提取URL和域名。首先,通过官方渠道下载并安装Python及第三方库lxml。接着,在谷歌搜索后,保存搜索结果为html文件。然后编写Python脚本,利用XPath解析HTML提取所需信息,并将结果保存到txt文件。此外,还提供了一个无需安装Python的封装程序供用户使用,以及如何通过浏览器获取准确的XPath路径。
摘要由CSDN通过智能技术生成

标题Python的下载、安装、运行

  1. 官方下载地址:https://www.python.org/downloads/
    如果操作系统为Windows,可以直接点黄色按钮下载最新版的Python。如果是其它操作系统,或者想要下载旧版本,点击白色框框里的链接,找到想要的版本下载即可。
    在这里插入图片描述
  2. 双击安装包,进入安装界面。可以选择直接安装或自定义安装。记得勾选安装界面底下两个选项,方便日后安装第三方库
    在这里插入图片描述
  3. 安装第三方库
    【开始】菜单——运行——输入CMD——确定
    在打开的窗口中输入【pip install lxml】,回车,等待第三方库安装成功
    在这里插入图片描述

恭喜,你已经成功安装了Python,并且安装了接下来要用到的第三方库lxml,还学会了安装第三方库的方法。下面我们开始搜索并提取信息吧

搜索与信息提取

  1. 在谷歌上搜索一个关键词。为了一次性获取更多结果,我把搜索结果数量设置为100个
  2. 结果页空白处右击——查看源文件——复制全文【Ctrl+A】——粘贴到txt文件,保存为【html.txt】
  3. 在【开始】菜单找到IDLE,单击打开

    在这里插入图片描述
  4. 新建一个py文件。在菜单栏依次点击File——New File,或者使用快捷键【Ctrl+N】
  5. 把以下代码粘贴到新文件里,然后按快捷键【Ctrl+S】保存,文件名为【test.py】
from lxml import etree

def collect_domains():
   html = open("html.txt", 'rb').read()
   html = etree.HTML(html)
   path = '//*[@id="rso"]/div[*]/div/div/div[1]/a/div/cite'
   elements = html.xpath(path)
   urls = [element.text for element in elements]
   
   rows = ""
   for url in urls:
       domain = url.split("/")[-1]
       if domain.startswith("www."): domain = domain[4:]
       rows = rows + f"
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ailsa2019

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值