简单的python网络爬虫实现

最新推荐文章于 2024-08-15 19:56:03 发布

qiracle

最新推荐文章于 2024-08-15 19:56:03 发布

阅读量4.8k

点赞数 3

分类专栏： Python 文章标签： python 网络爬虫

本文链接：https://blog.csdn.net/foreverJQQ/article/details/77338398

版权

Python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

　　此次爬虫很简单，就是爬斗鱼直播平台上的美女主播的图片，注要用了urllib2库，爬虫的网址是https://www.douyu.com/directory/game/yz 。直接贴代码：

import urllib2
import urllib
import re
import time



def getHtml(url):
    request = urllib2.Request(url)
    request.add_header('User-Agent','Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) 
    AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.76 Mobile Safari/537.36')
    response = urllib2.urlopen(request)
    html=response.read()
    return html

def getImage(html):
imglist=re.findall(r’data-original=”(.*?.(jpg|jpeg))”’,html)
print(len(imglist))
path =””
x=0
for img in imglist:
urllib.urlretrieve(img[0],”/home/qiracle/douyu/”+str(x)+”.”+img[1])
x+=1
time.sleep(1)

html =getHtml("https://www.douyu.com/directory/game/yz")
getImage(html)

最终爬到的结果如下：

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qiracle

关注关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python网络爬虫技术完整教案.docx

05-29

### Python网络爬虫技术知识点详解 #### 一、Python网络爬虫技术概览 ##### 1.1 网络爬虫概念与原理 - **定义**：网络爬虫（Web Crawler），也称为网页蜘蛛或自动索引器，是一种按照一定的规则自动地抓取互联网...

python简单实现网络爬虫

沉在海里的鱼的博客

12-05

1万+

在这一篇博客中，我会用python来实现一个简单的网络爬虫。简单的爬取一下一些音乐网站、小说网站的标题、关键字还有摘要！所以这个爬虫并不是万能爬，只针对符合特定规则的网站使用。（只使用于爬标题、关键字和摘要的，所以只能爬在head标签中这三个信息都有的且meta标签中name参数在本文信息前面的网站。）希望大家看了这篇博客，能对大家学习爬虫有些帮助！要用到的知识

参与评论您还未登录，请先登录后发表或查看评论

如何用Python实现一个简单的爬虫？

静幽水

06-04

2574

简单来说，爬虫就是一种自动化程序，通过网络协议来获取特定网站的信息，例如图片、文字、视频等等。这些信息可以是公开数据，也可以是需要用户授权的私有数据。通过数据的自动下载和处理，我们可以轻易地获取大规模数据，从而进行各种分析和挖掘，这在当今大数据时代具有极其广泛的应用。我们首先需要选择目标网站。在选择时，我们需考虑目标网站的网络限制，例如反爬虫机制、频率限制等。对于一些比较简单的网站，例如豆瓣电影，我们可以直接通过Python中的requests库访问。以上就是如何用Python实现一个简单的爬虫的全部内容。

7个经典python爬虫案例代码分享

热门推荐

BlueSocks152的博客

06-10

4万+

本次的7个python爬虫小案例涉及到了re正则、xpath、beautiful soup、selenium等知识点，非常适合刚入门python爬虫的小伙伴参考学习。注：若涉及到版权或隐私问题，请及时联系我删除即可。

Python爬虫入门教程（非常详细）

2201_75362610的博客

06-19

2万+

爬虫的全称为网络爬虫，简称爬虫，别名有网络机器人，网络蜘蛛等等。网络爬虫是一种自动获取网页内容的程序，为搜索引擎提供了重要的数据支撑。搜索引擎通过网络爬虫技术，将互联网中丰富的网页信息保存到本地，形成镜像备份。我们熟悉的谷歌、百度本质上也可理解为一种爬虫。如果形象地理解，爬虫就如同一只机器蜘蛛，它的基本操作就是模拟人的行为去各个网站抓取数据或返回数据。

最简单的python爬虫案例，适合入门学习

m0_74942241的博客

04-26

791

用python从网页爬取数据，网上相关文章很多，但能让零基础初学者轻松上手的却很少。可能是有的作者觉得有些知识点太简单不值得花费精力讲，结果是难者不会会者不难，初学者常常因此而蒙圈。本人也是小白，刚摸索着爬了两个简单的网页数据，经历了初学者易犯的各种糊涂，特总结分享一下，希望能对小白们有用。

Python网络爬虫技术-教学大纲.pdf

05-29

《Python网络爬虫技术》教学大纲详细解析 Python网络爬虫技术是一门针对大数据技术类专业的必修课程，旨在培养学生利用Python语言进行网络数据抓取的能力。课程总学时为32学时，包括14学时的理论教学和18学时的实验...

Python网络爬虫的设计与实现.zip

02-23

在本文中，我们将深入探讨Python网络爬虫的设计与实现，重点关注其核心技术和应用领域。首先，理解网络爬虫的工作原理至关重要。网络爬虫通常由四个主要部分组成：URL管理器、下载器、解析器和数据存储器。URL管理...

基于python的网络爬虫简单实现

05-01

### 基于Python的网络爬虫简单实现 #### 一、网络爬虫技术概览 ##### 1.1 网络爬虫的基本概念网络爬虫（Web Crawler），也被称作网络蜘蛛或机器人，是一种自动化工具，用于访问互联网上的网页并从中抓取数据。...

微型python网络爬虫的实现

03-01

微型python网络爬虫的实现实现一个微型Python网络爬虫，可以遵循以下概念： 1. **发送HTTP请求：** 使用Python中的HTTP库（例如Requests）向目标网站发送GET或POST请求，获取网页内容。 2. **解析HTML内容：** ...

使用 Python 编写网络爬虫：从入门到实战

前端好玩的小案例、游戏、工具

03-19

1万+

网络爬虫是一种自动化程序，通过模拟浏览器的行为向网络服务器发送 HTTP 请求，获取网页内容并进一步提取所需信息的过程。网络爬虫主要用于数据采集、信息监控、搜索引擎等领域，为用户提供更便捷、全面的数据检索服务。发送 HTTP 请求：模拟浏览器向目标网站发送请求，获取网页内容。解析网页内容：使用解析库解析 HTML 或其他标记语言，提取所需信息。处理信息：对提取的信息进行处理、存储或进一步分析。循环操作：根据需求循环执行上述步骤，实现自动化的数据采集和处理。

Python爬虫入门教程：超级简单的Python爬虫教程

xiqng17111342931的博客

04-17

408

Python爬虫入门教程：超级简单的Python爬虫教程

实战|手把手教你用Python爬虫(附详细源码)

m0_59162248的博客

03-24

1万+

python实现简单爬虫

乡村鬼畜级码叼

02-12

204

第一步准备环境 1.1安装selenium cmd窗口进入到解压的selenium的目录输入命令 python setup.py install 进行安装 1.2 配置Chrome浏览器驱动将Chromedriver.exe放入Chrome安装目录下，再把Chrome安装路径加入环境变量中注意Chromedriver.exe 要和Chrome的版本保持对应 1.3完整代码 impor...

Python爬虫使用实例