python怎么爬取豆瓣首页_Python3 爬虫（二） -- 爬取豆瓣首页图片

最新推荐文章于 2023-07-14 12:38:50 发布

马斯克·贾

最新推荐文章于 2023-07-14 12:38:50 发布

阅读量265

点赞数

文章标签： python怎么爬取豆瓣首页

本文链接：https://blog.csdn.net/weixin_32630003/article/details/113669800

版权

'''

批量下载豆瓣首页的图片

采用伪装浏览器的方式爬取豆瓣网站首页的图片，保存到指定路径文件夹下

'''

#导入所需的库

import urllib.request,socket,re,sys,os

#定义文件保存路径

targetPath = "E:\\projects\\Spider\\03_dbImages"

def saveFile(path):

#检测当前路径的有效性

if not os.path.isdir(targetPath):

os.mkdir(targetPath)

#设置每个图片的路径

pos = path.rindex('/')

t = os.path.join(targetPath,path[pos+1:])

return t

#用if __name__ == '__main__'来判断是否是在直接运行该.py文件

# 网址

url = "https://www.douban.com/"

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome/51.0.2704.63 Safari/537.36'

}

req = urllib.request.Request(url=url, headers=headers)

res = urllib.request.urlopen(req)

data = res.read()

for link,t in set(re.findall(r'(https:[^s]*?(jpg|png|gif))', str(data))):

print(link)

try:

urllib.request.urlretrieve(link,saveFile(link))

except:

print('失败')

爬取结果

(1)打印出来的信息

(2)爬取的图片列表

可以跟豆瓣首页进行对比。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

马斯克·贾

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python几行代码，简单爬取豆瓣出版社信息，并保存输出txt文件

qq_40466404的博客

04-02

834

Python简单爬取豆瓣出版社信息，并打印输出TXT文件之前自己跟着崔大神教程学习，都是从一些基础插件的安装，再到安装是否成功，及其测试使用，有点枯燥，现在换了其他教程学习，边实战边学习，每节课不长，还算可以。如图所示： 1.Python 脚本 2.结果图 3.以下代码是自己用Python直接编写，脚本运行的实例豆瓣出版社：https://read.douban.com/provider/a...

python3爬虫豆瓣_Python3 爬虫实例（三） -- 爬取豆瓣首页图片

weixin_35876682的博客

01-29

458

序前面已经完成了简单网页以及伪装浏览器的学习。下面，实现对豆瓣首页所有图片爬取程序，把图片保存到本地一个路径下。首先，豆瓣首页部分图片展示这只是截取的一部分。下面给出，整个爬虫程序。爬虫程序这个爬取图片的程序采用伪装浏览器的方式，只不过是加了处理图片的模块。'''批量下载豆瓣首页的图片采用伪装浏览器的方式爬取豆瓣网站首页的图片，保存到指定路径文件夹下'''#导入所需的库import urllib....

参与评论您还未登录，请先登录后发表或查看评论

python怎么爬取豆瓣首页,python爬取豆瓣电影首页超链接

weixin_35027170的博客

03-26

628

1 from urllib importrequest2 from collections importdeque3 from pybloom_live importBloomFilter4 from lxml importetree5 importhashlib67 classcrawel_bfs:8 request_header={9 'Accept': 'te...

python3 爬虫实例_Python3 爬虫实例（三） -- 爬取豆瓣首页图片

weixin_39977586的博客

11-24

165

python怎么爬取豆瓣首页_python爬取豆瓣电影首页超链接

weixin_39775872的博客

12-18

637

1 from urllib importrequest2 from collections importdeque3 from pybloom_live importBloomFilter4 from lxml importetree5 importhashlib67 classcrawel_bfs:8 request_header={9 'Accept': 'te...

10-03

本项目聚焦于使用Python语言实现一个专门针对豆瓣电影影评的爬虫，以便收集并分析用户对热门电影的评价。在这个过程中，我们将涉及Python的基础知识，网络请求，HTML解析以及数据存储等多个关键知识点。首先，...

python爬取豆瓣短评_爬虫-爬取豆瓣短评

weixin_39758953的博客

11-28

904

爬虫-爬取豆瓣短评啥是爬虫？按照一定的规则，自动地抓取互联网信息的程序。为啥要用爬虫？可以利用爬虫自动地采集互联网中的信息，采集回来后进行相应的存储或处理，在需要检索某些信息的时候，只需在采集回来的信息中进行检索怎么用爬虫？爬虫分为三个部分1、解析网页2、提取信息3、保存信息接下来将会用requests库来实现一个简单地爬虫爬取豆瓣短评首先我们需要安装requests库我们可以cmd指令进入p...

利用python爬取豆瓣音乐TOP250的数据----爬取的247首歌曲的网址

08-23

在标题“利用python爬取豆瓣音乐TOP250的数据----爬取的247首歌曲的网址”中，提到了使用Python进行网络爬虫来抓取豆瓣音乐TOP250的数据。这涉及到Python网络爬虫的基本概念和技术实现。 1. **Python网络爬虫简介**...

利用python爬取豆瓣音乐_Python爬取豆瓣音乐存储MongoDB数据库(Python爬虫实战1)

weixin_28994767的博客

02-05

745

1. 爬虫设计的技术1)数据获取，通过http获取网站的数据，如urllib,urllib2,requests等模块；2)数据提取，将web站点所获取的数据进行处理，获取所需要的数据，常使用的技术有：正则re，BeautifulSoup,xpath；3)数据存储，将获取的数据有效的存储，常见的存储方式包括：文件file，csv文件，Excel，MongoDB数据库，MySQL数据库2. 环境信息...

python爬取豆瓣书籍_Python爬取豆瓣读书

weixin_39762478的博客

11-27

698

主要思路利用Python的requests模块和beautifulsoup模块来爬取豆瓣读书的数据，并对这些数据做一定的分析。爬取的数据包括：豆瓣图书各个分类中所有书籍的'书名', '作者/译者', '出版信息', '星级', '评分', '评价人数', '简介', '相应的豆瓣链接'。例如：同时，通过爬取的豆瓣链接对具体书籍的质量做一定的分析，分析包括：制作热评词云、对热评进行简单的情感分析。有...

python爬取豆瓣读书_Python用16行代码就搞定了爬取豆瓣读书页面

weixin_39627751的博客

11-30

273

点击蓝字“python教程”关注我们哟！我们一直说Python比较简单，代码体量没有别的程序那么大，对于初学者，尤其是零编程基础的初学者来说，感触没有那么明显，那么今天就让你见识一下：爬取豆瓣读书页面，Python用16行代码就搞定了!python+selenium这个很神奇的组合，或许你还不知道selenium是什么，不过没关系，我先给你百度一下：Selenium (浏览器自动化测试框架)：Se...

爬取豆瓣电影网页首页有关信息

DEKEWF的博客

06-02

924

今天是开始接触爬虫的第一次实战，选择爬取了豆瓣电影网站的有关信息选择urllib，urllib.request，parse,ssl等模块 import urllib import urllib import urllib.request import urllib.parse import ssl （有的网站需要证书，注意如果使用ssl这里上面我们就不能使用requests模块，所以选择使用urllib.request） ssl._create_default_https_context = ssl.

爬虫学习笔记--爬取豆瓣，有道，人人网的简单使用urllib库

为梦想而奋斗，无悔_一叶扁舟的点滴成长！

07-28

263

1.爬取有道翻译 """ 通过post提交，访问有道翻译，得到翻译的数据 author:一叶扁舟说明:使用的python3.7 """ import urllib import urllib.request # 通过抓包的方式获取的url，并不是浏览器上显示的url,或者谷歌浏览器打开开发则调试工具，查看访问请求 # url = "http://fanyi.youdao.com/trans...

Project-1: 用python爬取指定的网页——爬取豆瓣首页

Sevieryang/FinTech/Statistics/Quant

01-31

504

''' 爬取豆瓣首页 urlib.request 打开和读取urls urllib.error urllib.request产生的错误 url.parse 解析urls的方法 urllib.robotparse 用来解析robots.txt文本 ''' #导入模块 import urllib.request #url url = 'https...

设计一个爬虫程序，爬取豆瓣首页全部图片，并把图片保存到本地一个路径下。

tcbdbd的博客

12-27

1326

代码中只需要把路径改为自己电脑上的路径。 import urllib.request, socket, re, sys, os # 定义文件保存路径 targetPath = "D:/python" def saveFile(path): # 检测当前路径的有效性 if not os.path.isdir(targetPath): os.mkdir(targetPa...

python爬虫爬取豆瓣读书首页部分内容

weixin_47643553的博客

09-17

458

#爬虫爬取豆瓣读书首页-图书咨询部分内容 import requests import re #添加一个网络代理，使用代理进入网站 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'} r = requests.get("https://book.douban.com/",header

豆瓣爬虫

weixin_34162695的博客

04-20

setting.py BOT_NAME = 'doubanbook' SPIDER_MODULES = ['doubanbook.spiders'] NEWSPIDER_MODULE = 'doubanbook.spiders' USER_AGENT = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:45.0) Gecko/20100101 F...

Python爬虫——urllib_ajax的get请求爬取豆瓣电影前十页