python网络爬虫(第四章 实战2:需求:爬取搜狗首页的页面数据)


# 需求:抓取搜狗首页的页面数据
import requests
if __name__ == "__main__":
    #1.指定url
    url = 'https://www.sogou.com/'
    #2.发送请求
    response = requests.get(url=url)
    #3.获取响应数据   text返回的是字符串形式的响应数据
    page_text = response.text
    print(page_text)
    # 4.持久化存储
    with open('./sougou.html','w',encoding='utf-8') as fp:
        fp.write(page_text)
    print('爬取数据结束!!!')

#运行后,打开sougou.html,全选之后,使用快捷键【ctrl+alt+L】,然后sougou.html中的HTML文件则会格式化

问题1,HTML格式不对,使用【ctrl+alt+L】快捷键格式化文件
问题2,使用浏览器打开搜狗页面
在pycharm中的Files—>Settings—>Tools—>Web Browsers。然后将Chrome中的Path和Default Browser【Custom path】下的路径全部修改为本地chrome安装的路径。

chrome安装路径:打开网页,输入chrome://version/

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值