爬虫入门学习---爬取搜狗网页数据

DHPYX

于 2022-01-08 09:24:25 发布

阅读量1.3k

点赞数 1

分类专栏： python爬虫文章标签：爬虫 python pycharm

本文链接：https://blog.csdn.net/qq_61466402/article/details/122371914

版权

python爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

什么是爬虫：
通过编写程序，模拟浏览器上网，然后让其去互联网抓取数据的过程

我用的是pycharm中的requests模块来实现

步骤如下：

代码如下

# step1:指定url
# step2:发起请求
# step3:获取响应数据,text返回的是字符串形式的响应数据
# step4:持久化存储

代码如下

# 需求：爬取搜狗首页数据
import requests
# step1:指定url
url = 'https://www.sogou.com/'
# step2:发起请求
# get方法会返回一个响应对象
response = requests.get(url=url)
# step3:获取响应数据,text返回的是字符串形式的响应数据
page_text = response.text
print(page_text)
# step4:持久化存储
with open('./sogou.html', 'w', encoding='utf-8') as fp:
    fp.write(page_text)
print("爬取数据结束！！！")

由于只是爬取主页的信息，所以没有必要使用UA伪装。

结果是网页的所有数据会存储到本地的一个html文件中。

优惠劵

DHPYX

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
爬虫入门学习---爬取搜狗网页数据

什么是爬虫：通过编写程序，模拟浏览器上网，然后让其去互联网抓取数据的过程我用的是pycharm中的requests模块来实现步骤如下：目录步骤如下：代码如下# step1:指定url# step2:发起请求# step3:获取响应数据,text返回的是字符串形式的响应数据# step4:持久化存储代码如下# 需求：爬取搜狗首页数据import requests# step1:指定urlurl = 'https://www.sogou.com/'#.
复制链接

扫一扫