初学python 爬虫

最新推荐文章于 2024-09-23 14:24:34 发布

不会玩游戏的码农

最新推荐文章于 2024-09-23 14:24:34 发布

阅读量146

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qrnhhhh/article/details/82589418

版权

python 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在python3中有一个 urllib模块，使用urllib 这个模块来进行简单的爬虫。

from urllib import request #引用这个模块

import re

def getObject(url):

urlObject = request.urlopen(url) #打开一个url,获得http请求的上下文，也就是 http reponse 对象

return getObject

def getjpglist(data): #使用正则表达式，匹配图片路径

list = re.findall(r'src = https.+?.jpg',data)

return list

httpObject = getObject("https://www.csdn.net/") #得到这个http reponse对象

#httpObject .geturl() 可以得到地址

#httpObject .info() 获得headers

#httpObject .getcode() 获得http的状态

data = httpObject .read().decado('utf-8') #得到内容，得到内容之后我们就可以用正则筛选自己想要的东西

jlist = getjpglist(data)

global n #声明一个全局变量

for jpg in jlist : #循环得到的图片地址的集合，打印出来

print(list)

n = n+1

# 如果想要下载图片可以使用 request.urlretrieve() 方法

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

不会玩游戏的码农

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python爬虫返回none_初学python爬虫，bs4解析后print(bs,h1)返回None的原因和解决方案...

weixin_39582569的博客

01-14

2769

本人用的python3.7，代码在anacoda 3.7版和自装的bs4 4.9.1都成功测试。初学爬虫，结果第一个BeautifulSoup的实例就运行失败，print(bs,h1)返回None，但原网页明明就有h1标签。比如下面的代码。from bs4 import BeautifulSoupfrom urllib.request import urlopenhtml = urlopen('...

初学python爬虫，记录一下学习过程，正则表达式提取图片网址

12-23

对于初学者来说，学习如何构建一个简单的Python爬虫是十分有趣的。本篇将详细介绍如何利用正则表达式（Regular Expression）从网页中提取图片链接，以实现基础的网络爬虫功能。首先，我们导入所需的库。Python中的...

参与评论您还未登录，请先登录后发表或查看评论

Python爬虫实战（四）：利用代理IP爬取某瓣电影排行榜并写入Excel（附上完整源码）

热门推荐

努力让自己发光，对的人才能迎着光而来

07-26

12万+

Python爬虫实战（四）：利用代理IP爬取某瓣电影排行榜并写入Excel（附上完整源码）

初学python爬虫心得（豆瓣电影top250）

m0_68142870的博客

06-19

1770

爬虫基础

Python爬虫实战

scorpio的博客

08-22

3405

Python爬虫实战

1. 初学python爬虫

qq_36312112的博客

07-23

486

初学python爬虫看了几个星期廖雪峰老师的python教程之后，总发现学完新的东西，旧的就忘了。所以还是打算直接上路写爬虫了，边写边学python的基础知识。python版本：python3.5然而，作为一个萌新，我当然还是从urllib库开始学起。要用这个工具，我当然是要去了解它怎么用。所以我去了官网查了一查。（我好像找不到中文文档….）urllib.request是用来打开和读取URL

Python爬虫之入门保姆级教程，学不会我去你家刷厕所

小袁同学的博客

05-26

9万+

注重版权，转载请注明原作者和原文链接作者：Bald programmer 今天这个教程采用最简单的爬虫方法，适合小白新手入门，代码不复杂爬虫的介绍以及原理等等七七八八的东西我就不多bb了，咋们直接上教程本案例我就以彼岸图网这个网站做教程，原网址下方链接 https://pic.netbian.com/ 首先打开咋们的网站可以看到有很多好看的图片，一页总共21张图片我们右键选择检查或者直接按F12来到控制台点击左上角的箭头或者快捷键ctrl+shift+c，然后随便点在一张图片上面 ..

初学python爬虫学习笔记——爬取网页中小说标题

淼的博客

09-08

1186

不过，还是发现的很多，比如for循环的多种使用掌握不熟练，soup.find()和soup.find_all()的使用存在较多问题。发现每个标题是列表下的一个个超链接，从183.html到869.html。第一次学习爬虫，能得出查询结果，心中还是无限的高兴。

Python爬虫系列（一）——手把手教你写Python爬虫

cun的博客

10-23

4万+

适合初学者快速上手入门，以爬取CSDN和百度图片为例。

所有的Python “爬虫“ 初学者，都应该看这篇文章！

数据分析与统计学之美

06-29

6505

所有的Python “爬虫“ 初学者，都应该看这篇文章！

python爬虫概述及编写demo

STCNXPARM的博客

01-04

2万+

我们所熟悉的一系列搜索引擎都是大型的网络爬虫，比如百度、搜狗、360浏览器、谷歌搜索等等。每个搜索引擎都拥有自己的爬虫程序，比如 360 浏览器的爬虫称作 360Spider，搜狗的爬虫叫做 Sogouspider。

初学python爬虫，记录一下学习过程，正则表达式提取文本

01-20

紧接上一次正则表达式提取图片，这次提取文本获取的是图书的书名，没有获取详细的内容 ''' 正则表达式模块提取网页文本面向过程式编程 ''' #导入第三方库 import re import requests #请求头 ...

初学python爬虫，记录一下学习过程，requests xpath os 提取图片并保存本地

12-22

总之，这个学习过程涵盖了Python爬虫的基本步骤，包括请求网页、解析HTML、提取数据、动态构造URL以及保存文件等，对于初学者来说是一次很好的实践。在实际应用中，还需要注意遵守网络爬虫的道德规范，尊重网站的...

初学python爬虫，记录一下学习过程，requests xpath os 提取MM图片并保存本地 03

12-22

Python爬虫是获取网络数据的重要工具，尤其对于初学者来说，爬取图片是一种实用且有趣的练习。首先，我们要了解的是requests库，它是Python中用于发送HTTP请求的库。在爬虫过程中，我们通常会使用requests.get()...

初学python爬虫，记录一下学习过程，正则表达式综合练习，提取电影名称和图片网址

12-23

正则表达式综合练习，提取猫眼热映口碑榜电影的名称和图片 ''' 正则表达式模块综合练习获取猫眼电影名获取电影图片地址单页爬取面向过程式编程 ''' #导入第三方库 import re import requests ...

简单题101. 对称二叉树（python）20240922

Sep21m_wyy的博客

09-22

365

【代码】简单题101. 对称二叉树（python）20240922。

【工具】Windows｜两款开源桌面窗口管理小工具Deskpins和WindowTop

qq_46106285的博客

09-21

915

写这篇的初衷是怕自己忘了这两个工具的名字。

python 将 aac 转为 mp3，保持原有目录结构