爬虫的构建流程(准备工作,获取数据、头部等操作)

爬虫的构建流程

HTTP Error 418: 这个错误是对方发现你是爬虫。

主要是分为四步:准备工作、获取数据、解析内容、保存数据

一、准备工作:

  • 一般python程序第一行须加入
    #-*_coding:utf-8-*-或者#coding=utf-8 这样可以在代码种包含中文
  • 在python中,使用函数实现单一功能或相关联功能的代码段,可以提高可读性和代码重复利用率,函数代码块以def关键词开头,后接空格、函数标识符、名称、圆括号()、冒号:,括号中可以传入参数,函数段缩进(Tab或四个空格,只能选择一种),return用于结束函数,可以返回一个值,也可以不带任何表达式(表示返回None)
  • Python文件中可以加入main函数用于测试程序:
    if __main__ == "__main__":
  • python 使用#添加注释,说明代码(段)的作用。

模块(module):用来从逻辑上组织python代码(变量、类、函数),本质就是py文件,提高代码的可维护性。python使用import来导入模块,如:

import requests
from bs4 import BeautifulSoup   #进行数据获取,网页解析
import re   #正则表达式,进行文字匹配
import urllib.request,urllib.error   #指定url,获取网页数据。
import xlwt   #进行excel操作
import sqlite3  #进行SQlite数据库操作

二、获取数据

一般使用urllib库获取页面。

  • 获取页面数据:
  • 对每一个页面,调用askURL函数获取页面内容
  • 定义一个获取页面的函数askURL,传入一个url参数,表示网页。
  • urllib.request生成请求;
    urllib.urlopen发送请求获取响应;read获取页面内容。
  • 在访问页面时经常会发生错误,为了程序正常运行。加入异常捕获try…except…语句

1.获取一个get请求

import urllib.request
response = urllib.request.urlopen("http://www.baidu.com")
print(response)

在这里插入图片描述
对获取到的网页进行utf-8的解码

import urllib.request
response = urllib.request.urlopen("http://www.baidu.com")
print(response.read().decode
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黎明之道

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值