结合requests和argparse在命令行输入url获得网站文本

最新推荐文章于 2023-11-04 14:43:41 发布

派森泰

最新推荐文章于 2023-11-04 14:43:41 发布

阅读量302

点赞数 1

分类专栏： Python 文章标签：爬虫 requests argparse python 练手项目

本文链接：https://blog.csdn.net/weixin_43243428/article/details/89417594

版权

本文结合requests库和argparse库，演示如何在命令行通过输入URL获取网站文本。首先，requests.get()用于获取网页响应，通过判断响应状态码确保访问成功。接着，设置编码以正确显示中文内容。然后，介绍argparse库，创建解析器并定义命令行参数，解析用户输入的URL，实现命令行交互式的爬虫练手项目。

摘要由CSDN通过智能技术生成

这个示例刚好可以把最近学到的requests库和argparse库结合在一起，算是对知识点的一个巩固吧。

# website_text_spider.py
# created on 20th April 2019
'''
This will print the website information text[:1000] 
once you pass the website url.
'''
__author__ = 'TeddyLiu95'
__version__ = '1.0'

# 导入模块
import requests
import argparse

def spider(url):
	# 由于种种原因可能会出现无法获取url内容的情况，所以最好是用上try，except.
	try:
		r = requests.get(url)
		# r.raise_for_status()表示在返回200的时候则代码正常运行，若非200，则执行except的内容。
		r.raise_for_status()
		# 将编码方式换为正文可读的编码方式。
		r.encoding = r.apparent_encoding
		# 如果直接打印r.text全文的话，会由于内容过多导致运行速度减慢，所以只取0到999个字节。
		print(r.text[:1000])
	except:
		print('爬取失败')

def get_parser():		
	parser = argparse.ArgumentParser(description='To get web information by url')
	parser.add_argument('url', type=str, nargs=1, help='web url')
	return parser
	
def main():
	parser

最低0.47元/天解锁文章

派森泰

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
结合requests和argparse在命令行输入url获得网站文本

website_text_spider.pycreated on 20th April 2019‘’’This will print the website information text[:1000]once you pass the website url.‘’’author = ‘TeddyLiu95’version = ‘1.0’导入模块import requests...
复制链接

扫一扫