爬虫01_基于Python的Requests模块GET请求开发的关键词搜索爬虫

最新推荐文章于 2022-02-14 15:50:43 发布

我是那颗银弹

最新推荐文章于 2022-02-14 15:50:43 发布

阅读量377

点赞数

分类专栏： python 爬虫文章标签： python 爬虫 request 数据分析机器学习

本文链接：https://blog.csdn.net/qq_40272386/article/details/105404823

版权

python 同时被 2 个专栏收录

18 篇文章 1 订阅

订阅专栏

爬虫

12 篇文章 1 订阅

订阅专栏

需求：

输入一个关键词
爬取相关页面
网页链接：www.sogou.com/web

代码：

import requests
import os

#指定搜索关键字
keywords = input('请输入你要爬取的关键词：')
#基于反爬构建，User-Agent
headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'
}
#搜狗指定的url
url = 'https://www.sogou.com/web'
#封装一些get请求的参数
params = {
    'query':keywords,
    'ie':'utf-8'
}

#向服务器端发起请求
response = requests.get(url=url, params=params, headers=headers)
#获取响应的数据内容
pag_text = response.text

#响应数据持久化到本地
with open('./sougou.html', 'w', encoding='utf-8') as fp:
    fp.write(pag_text)
    print('爬取完毕！')
    fp.close()

总结：

.text：表示response对象的.text，可以将返回的内容以文本文件的形式返回
.json()：表示 response对象的.json()方法，可以将返回的内容以json格式的返回，返回一个字典类型或者列表类型的数据
两种方法主要取决于通过抓包工具对返回数据，即抓包工具Network栏目下面的Response栏目下的数据进行分析，如果返回的是json格式的，那么就选择.json()方式接收

我是那颗银弹

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫01_基于Python的Requests模块GET请求开发的关键词搜索爬虫

需求：输入一个关键词爬取相关页面网页链接：www.sogou.com/web代码：import requestsimport os#指定搜索关键字keywords = input('请输入你要爬取的关键词：')#基于反爬构建，User-Agentheaders = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac...
复制链接

扫一扫