![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
AlienGMX
这个作者很懒,什么都没留下…
展开
-
Python爬虫:动态网页抓取淘宝“淘女郎”照片
Python爬虫作为一个搞数据的人,不会点爬虫真是说不过去。以前曾搞过那么几天,早就忘了,借着一个项目需要抓取点东西便再捡回来了。本篇将介绍使用python, urllib2, re, spynner 抓取淘宝淘女郎的所有写真照片。来个网址:https://mm.taobao.com 让我们先对淘女郎有个直观的感受嘛。主要步骤:1. 抓取 http://mm.taobao.c原创 2015-10-21 13:55:43 · 4418 阅读 · 2 评论 -
Python爬虫:初探多线程爬虫
Python爬虫上篇,我们已经创建了一个基本的爬虫,用来抓取动态网页的信息。经过测试,爬虫的速度太慢,我们需要改进。这篇我会介绍如何实现一个多线程的python爬虫来提高抓取网页的效率。基础介绍很多人都说因为python的GIL (GIL规定每个时刻只能有一个线程访问python虚拟机)限制,不应该用多线程,而应该用多进程。首先,这个观点是大错特错的!如果是一个IO密集型的原创 2015-10-27 12:14:21 · 13759 阅读 · 0 评论