Python爬取网站源码

        Python最广泛的应用场景之一便是爬虫。爬虫可将网页内容批量处理。今天,我们就写一个爬取网站源码的项目练练手。

一、工具

        本次爬取使用PythonCompiler中文版,其他版本的Python也可以使用。

二、安装第三方库

       本次开发需 requests库

安装命令(Windows):python -m pip install requests

三、开发过程

        首先我们可以使用requests库进行代码爬取,以Python官网为例:

source = requests.get("http://www.python.org/).content.decode()

        当然,一次只能获取一个网站的源码,功能十分有限。所以,我们可以使用while循环进行多次处理:

while True:
        a=input("输入你的网址:")
        source = requests.get(a).content.decode()
        print("The source:", source)

        这样,我们便生成了一个可以多次利用的网站源码爬取神器。

        代码如下:

import requests
while True:
    a=input("输入你的网址:")
    source = requests.get(a).content.decode()
    print("The source:", source)

        运行结果:

ab420a14205b4f518a2351ac7ee1a280.jpg

         然后输入网址(以http或https开头)即可。

 

        以上就是一个简单的爬虫项目,可以爬取网站的源码,希望大家慎用。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值