结合requests和argparse在命令行输入url获得网站文本

本文结合requests库和argparse库,演示如何在命令行通过输入URL获取网站文本。首先,requests.get()用于获取网页响应,通过判断响应状态码确保访问成功。接着,设置编码以正确显示中文内容。然后,介绍argparse库,创建解析器并定义命令行参数,解析用户输入的URL,实现命令行交互式的爬虫练手项目。
摘要由CSDN通过智能技术生成

这个示例刚好可以把最近学到的requests库和argparse库结合在一起,算是对知识点的一个巩固吧。

# website_text_spider.py
# created on 20th April 2019
'''
This will print the website information text[:1000] 
once you pass the website url.
'''
__author__ = 'TeddyLiu95'
__version__ = '1.0'

# 导入模块
import requests
import argparse

def spider(url):
	# 由于种种原因可能会出现无法获取url内容的情况,所以最好是用上try,except.
	try:
		r = requests.get(url)
		# r.raise_for_status()表示在返回200的时候则代码正常运行,若非200,则执行except的内容。
		r.raise_for_status()
		# 将编码方式换为正文可读的编码方式。
		r.encoding = r.apparent_encoding
		# 如果直接打印r.text全文的话,会由于内容过多导致运行速度减慢,所以只取0到999个字节。
		print(r.text[:1000])
	except:
		print('爬取失败')

def get_parser():		
	parser = argparse.ArgumentParser(description='To get web information by url')
	parser.add_argument('url', type=str, nargs=1, help='web url')
	return parser
	
def main():
	parser 
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值