python入门011~python3爬虫 爬取图片,爬取新闻网站文章并保存到数据库

  • 安装成功后就会出现在在安装列表中,到此就说明我们安装网络爬虫扩展库成功

在这里插入图片描述

二,由浅入深,我们先抓取网页


我们这里以抓取简书首页为例:http://www.jianshu.com/


# 简单的网络爬虫

from urllib import request

import chardet



response = request.urlopen("http://www.jianshu.com/")

html = response.read()

charset = chardet.detect(html)# {'language': '', 'encoding': 'utf-8', 'confidence': 0.99}

html = html.decode(str(charset["encoding"]))  # 解码

print(html)





由于抓取的html文档比较长,这里简单贴出来一部分给大家看下


<!DOCTYPE html>

<!--[if IE 6]><html class="ie lt-ie8"><![endif]-->

<!--[if IE 7]><html class="ie lt-ie8"><![endif]-->

<!--[if IE 8]><html class="ie ie8"><![endif]-->

<!--[if IE 9]><html class="ie ie9"><![endif]-->

<!--[if !IE]><!--> <html> <!--<![endif]-->



<head>

  <meta charset="utf-8">

  <meta http-equiv="X-UA-Compatible" content="IE=Edge">

  <meta name="viewport" content="width=device-width, initial-scale=1.0,user-scalable=no">



  <!-- Start of Baidu Transcode -->

  <meta http-equiv="Cache-Control" content="no-siteapp" />

  <meta http-equiv="Cache-Control" content="no-transform" />

  <meta name="applicable-device" content="pc,mobile">

  <meta name="MobileOptimized" content="width"/>

  <
  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,这是一个非常常见的 Python 爬虫任务。我可以为您提供一些基本的思路和代码示例来实现这个功能。 首先,您需要使用 Python 的 requests 库来获取网页内容,以及使用 BeautifulSoup 库来解析 HTML 页面。您还需要使用 Python 的 os 和 urllib 库来创建目录和保存图片。 以下是一个基本的示例代码,可以爬取指定网页中的所有图片,并将它们保存在本地文件夹中: ```python import requests from bs4 import BeautifulSoup import os import urllib # 定义要爬取的网页 URL 和本地保存路径 url = 'http://example.com' save_folder = 'images' # 创建本地保存路径 if not os.path.exists(save_folder): os.makedirs(save_folder) # 发送请求并解析 HTML 页面 response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') # 查找所有 img 标签并下载图片 for img in soup.find_all('img'): img_url = img.get('src') if img_url.startswith('http'): img_name = img_url.split('/')[-1] img_path = os.path.join(save_folder, img_name) urllib.request.urlretrieve(img_url, img_path) ``` 这段代码首先定义了要爬取的网页 URL 和本地保存路径,然后创建了本地保存路径。接下来,使用 requests 库发送请求并使用 BeautifulSoup 库解析 HTML 页面。然后,查找所有 img 标签并下载图片,将其保存在本地指定路径中。 需要注意的是,这个示例代码只能下载图片,如果您需要下载其他类型的文件,可能需要使用不同的方式来处理文件名和文件类型。同时,注意网站的版权问题,不要下载未经授权的文件。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值