如何用Python爬取网页数据,Python爬取网页详细教程

大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情。

在这里插入图片描述

1、如何用Python爬虫抓取网页内容?

爬虫流程
其实把网络爬虫抽象开来看,它无外乎包含如下几个步骤

  • 模拟请求网页。模拟浏览器,打开目标网站。
  • 获取数据。打开网站之后,就可以自动化的获取我们所需要的网站数据。
  • 保存数据。拿到数据之后,需要持久化到本地文件或者数据库等存储设备中。

那么我们该如何使用 Python 来编写自己的爬虫程序呢,在这里我要重点介绍一个 Python 库:

  • Requests。
  • Requests 使用Requests 库是 Python 中发起 HTTP 请求的库,使用非常方便简单。
  • 模拟发送 HTTP 请求
  • 发送 GET 请求

当我们用浏览器打开豆瓣首页时,其实发送的最原始的请求就是 GET 请求

import requests
res = requests.get('')
print(res)
print(type(res))
>>>
<Response [200]>
<class 'requests.models.Response'>

2、怎样用python爬取网页

在这里插入图片描述

# coding=utf-8
import urllib
import re
# 百度贴吧网址:https://tieba.baidu.com/index.html
# 根据URL获取网页HTML内容
def getHtmlContent(url):
    page = urllib.urlopen(url)
    return page.read()
# 从HTML中解析出所有jpg的图片的URL
# 从HTML中jpg格式为<img ... src = "xxx.jpg" width='''>
def getJPGs(html):
    # 解析jpg图片URL的正则表达式
    jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)"'</
  • 2
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值