python网络爬虫（第四章实战2：需求：爬取搜狗首页的页面数据）

小维_

于 2021-07-25 21:17:34 发布

阅读量359

点赞数

分类专栏： python网络爬虫

本文链接：https://blog.csdn.net/qq_38633279/article/details/119087834

版权

python网络爬虫专栏收录该内容

34 篇文章 14 订阅

订阅专栏


# 需求：抓取搜狗首页的页面数据
import requests
if __name__ == "__main__":
    #1.指定url
    url = 'https://www.sogou.com/'
    #2.发送请求
    response = requests.get(url=url)
    #3.获取响应数据   text返回的是字符串形式的响应数据
    page_text = response.text
    print(page_text)
    # 4.持久化存储
    with open('./sougou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束！！！')

#运行后，打开sougou.html，全选之后，使用快捷键【ctrl+alt+L】,然后sougou.html中的HTML文件则会格式化

问题1，HTML格式不对，使用【ctrl+alt+L】快捷键格式化文件
问题2，使用浏览器打开搜狗页面
在pycharm中的Files—>Settings—>Tools—>Web Browsers。然后将Chrome中的Path和Default Browser【Custom path】下的路径全部修改为本地chrome安装的路径。

chrome安装路径：打开网页，输入chrome://version/

小维_

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
python网络爬虫（第四章实战2：需求：爬取搜狗首页的页面数据）

# 需求：抓取搜狗首页的页面数据import requestsif __name__ == "__main__": #1.指定url url = 'https://www.sogou.com/' #2.发送请求 response = requests.get(url=url) #3.获取响应数据 text返回的是字符串形式的响应数据 page_text = response.text print(page_text) # 4.持久化存.
复制链接

扫一扫