Python爬虫实战：抓取淘宝MM照片

最新推荐文章于 2021-04-16 19:02:11 发布

mybook1122

最新推荐文章于 2021-04-16 19:02:11 发布

阅读量835

点赞数

分类专栏： python 文章标签： python 爬虫

本文链接：https://blog.csdn.net/mybook1122/article/details/78819340

版权

本篇目标

抓取淘宝MM的姓名，头像，年龄
抓取每一个MM的资料简介以及写真图片
把每一个MM的写真图片按照文件夹保存到本地
熟悉文件保存的过程

1. URL的格式

在这里我们用到的URL是 http://mm.taobao.com/json/request_top_list.htm?page=1，问号前面是基地址，后面的参数page是代表第几页，可以随意更换地址。点击开之后，会发现有一些淘宝MM的简介，并附有超链接链接到个人详情页面。

我们需要抓取本页面的头像地址，MM姓名，MM年龄，MM居住地，以及MM的个人详情页面地址。

2.抓取简要信息

相信大家经过上几次的实战，对抓取和提取页面的地址已经非常熟悉了，这里没有什么难度了，我们首先抓取本页面的MM详情页面地址，姓名，年龄等等的信息打印出来，直接贴代码如下

Python

__author__ = 'CQC'
# -*- coding:utf-8 -*-

import urllib
import urllib2
import re

class Spider:

    def __init__(self):
        self.siteURL = <

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

mybook1122

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

利用python爬取淘宝的商品图片！

pythonlaodi的博客

11-30

3376

代码 from selenium import webdriver from selenium.webdriver.common import keys import time import requests import random # 创建浏览器 def functions(): browser = webdriver.Chrome(r'G:\taobao\chromedriver.exe') # 让浏览器打开淘宝 browser.get("https://www.ta

Python爬虫实战四之抓取淘宝MM照片

shengxiaweizhi的专栏

05-11

1255

福利啊福利，本次为大家带来的项目是抓取淘宝MM照片并保存起来，大家有没有很激动呢？本篇目标 1.抓取淘宝MM的姓名，头像，年龄 2.抓取每一个MM的资料简介以及写真图片 3.把每一个MM的写真图片按照文件夹保存到本地 4.熟悉文件保存的过程 1.URL的格式在这里我们用到的URL是http://mm.taobao.com/json/request_top_list.htm?pag

参与评论您还未登录，请先登录后发表或查看评论

使用pyspider爬取巨量淘宝MM图片

热门推荐

神棍之路

02-23

6万+

具体搭建步骤不再赘述，这里主要使用到了fakeagent，phantomjs和proxy pyspider的爬取相当智能，在不能获取图片的时候会适当的暂停一段时间再试探性的爬取，配合fakeagent，proxypool和phantomjs，爬取成功率在90%以上。代码是扒的别人的然后修改提高速度和成功率的，数据总量在百G左右，磁盘大的可以扒一扒。代码如下： #!/us...

【Python3 爬虫】14_爬取淘宝上的手机图片

ajsyipsc40270的博客

04-22

253

现在我们想要使用爬虫爬取淘宝上的手机图片，那么该如何爬取呢？该做些什么准备工作呢？首先，我们需要分析网页，先看看网页有哪些规律打开淘宝网站http://www.taobao.com/ 我们可以看到左侧是主题市场，将鼠标移动到【女装/男装/内衣】这一栏目，我们可以看到更细类的展示假如我们现在需要爬取【羽绒服】，那么我们进入到【羽绒服】衣服这个界面此时查看浏览器地址，我们可以看...

【实例】Python爬取淘宝图片

Kevin's Blog

05-11

1万+

一、分析规律第一页时第二页时s=48,第三页时s=96（每页为48的倍数）当q=外套时（q为关键字）用于每页图片的正则表达目标二、走起…… 导入请求、报错模块&正则表达式类库 from urllib import request,error import re 定义搜索词并将搜索词转码，防止报错 key_name=request.q...

Python爬虫实战之抓取淘宝MM照片（一）

PatrickZheng的博客

06-19

2463

Python爬虫系列教程的一次实战，然而淘宝进行过页面改版，现在已经没有淘宝MM这个版面，取而代之的是淘女郎。改版后，页面是使用JS渲染的，并不能直接通过url来切换页码。该系列教程后续讲到了 selenium + phantomJS，通过这个组合来模拟操作，进行页码切换等。

Python爬虫实战之抓取淘宝MM照片（四）

PatrickZheng的博客

06-19

970

最后添加上标题切换、本地目录创建、日志记录等，完善了整体代码。过程中遇到了一个自己坑了自己的地方：中文乱码问题！一定要注意： python代码文件开头要加上： # -- coding: utf-8 -- 带中文的字符串前一定要加上 u，比如 (u”hi,你好”) 还有一点，我试过不是必需的。参见 http://blog.csdn.net/isfirst/article/details

python爬虫实战二之爬取百度贴吧帖子

finna_xu的博客

03-31

2569

目标： 1.对百度贴吧的任意帖子进行抓取 2.指定是否只抓取楼主发帖内容 3.将抓取到的内容分析并保存到文件 1.URL格式的确定首先，我们先观察一下百度贴吧的任意一个帖子。比如：http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1，分析一下地址 http：//表示资源传输使用http协议 tieba.baidu.com 是百度

python实现淘宝爬取商品详情页面

03-10

淘宝爬取详情页面

python爬取淘宝信息并作分析

03-08

Python利用bs4 分析网页进行爬取，利用numpy matplotlib pandas进行分析展示。

python淘宝美食数据抓取

01-27

淘宝美食抓取存储到Mongodb和txt文件中服务器端：通过web服务器的配置来指定编码参数，为所有text/html类型的文档指定带有正确编码信息的Content-Type头信息。例如Content-Type: text/html;charset=UTF-8 客户端：在HTML代码中包含http-equiv="content-type"的meta标签，并指定字符编码。例如。如果可能的话，为你的web服务器做指定字符编码的HTTP头信息配置。某些浏览器（例如Firefox）在执行JavaScript之前会用（比其它浏览器）更短的延迟缓冲来检查头信息中是否指定字符编码。这意味着它们可以跳过对HTML标签的检查，缩短缓冲的字节数和延迟时间。

python 爬虫一键爬取淘宝天猫宝贝页面主图颜色图和详情图的教程

09-20

今天小编就为大家分享一篇python 爬虫一键爬取淘宝天猫宝贝页面主图颜色图和详情图的教程，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

python爬取淘宝商品图片

guoxuying的博客

02-28

2558

python爬取淘宝商品的图片话不多说，直接上代码： from selenium import webdriver from selenium.webdriver.common import keys import time import requests import random # 创建浏览器 def functions(): browser = webdriver.Chrome(r'G:\taobao\chromedriver.exe') # 让浏览器打开淘宝 brows

Python爬虫学习之爬取淘宝搜索图片

hu7863058的博客

08-20

2547

Python爬虫学习之爬取淘宝搜索图片准备工作因为淘宝的反爬机制导致Scrapy不能使用，所以我这里是使用selenium来获取网页信息，并且通过lxml框架来提取信息。 selenium、lxml安装和版本适配 selenium需要与当前的chrome版本相匹配，否则会报错。如下图：适配的方法可以参考：https://blog.csdn.net/qq_26200629/article/d...

python 爬取淘宝MM图片

kanfh1的博客

06-14

538

#爬取淘宝图片#如何封装为一个模块#import urllib.requestimport reimport randomkeyname="python3"key=urllib.request.quote(keyname)uapools=[ "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (...

python多线程爬取淘宝商家图片

weixin_46153372的博客

04-16

2279

python多线程爬取淘宝商家图片此次爬取淘宝商家图片是为了对相关行业（此处以激光雷达为例）的产品结构以及外观设计进行对比。而淘宝的反爬机制非常强大，能力有限只能有简单点的办法进行爬取。由于淘宝的每一页数据都是存放在js文件里面，所以我们只需获取js文件对应的url即可，最后使用多线程下载并保存图片。一、解析步骤 1、进入淘宝首页，在搜索框中输入关键字（例：激光雷达），回车进行搜索； 2、打开开发者工具，

Python爬虫实战：淘宝MM照片抓取与解析

本文将详细介绍如何使用Python编写爬虫程序，具体针对的是在淘宝网（Taobao）上抓取淘女郎（通常指淘宝上的网络美女模特）的照片及其相关信息。以下是本文的主要知识点： 1. **Python爬虫基础**: Python是广泛用于...