python爬取去哪网数据_Python爬虫入门:使用Python爬取网络数据

1 网络爬虫

引用百度百科的定义:网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

简单的说,就是有一个程序可以自动去访问网页。

2 Python爬虫

如何实现爬虫?

简单的讲,一共就三步:①构建请求头;②发起访问;③获得响应。另外,一般情况下还需要保存数据。

学习爬虫需要了解的知识:

  • HTML语言:HyperText Markup Language,超文本标记语言,规定了网页应该具有什么样的结构。
  • HTTP协议:HyperText Transfer Protocol,超文本传输协议,客户端和服务端的传送协议。

3 第一个Python爬虫程序

Python中如何实现爬虫程序?

使用已经编写好的相关的软件包:requests,来模拟请求响应。

请求方法:

  • get(url, params=None, **kwargs):发起get请求。
  • post(url, params=None, **kwargs):发起post请求。

响应属性:

  • text:unicode编码的响应数据。
  • content:字节码编码的响应数据。
  • json:响应数据解码后的json。

以爬虫百度首页为例:

import 

爬取结果:

<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X......(省略N字)

4 爬取图片并且保存

分析:请求方式用get。图片数据是字节码,使用content属性。保存图片使用open方法。

以百度LOGO为例:

import 

保存结果:

ac4442bc6d10fa631419e941d6cccc18.png
爬取结果图片
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值