[爬虫]
江前云后
若你喜欢彦祖,其实我很帅。
展开
-
[python][爬虫]暴漫gif下载
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制; 此外也加入了输出格式控制,如果想加入手动设定存储路径功能,可以参考之前的百度贴吧爬虫#!/usr/bin/env python#! -*- coding: utf-8 -*-#图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif原创 2015-04-23 12:09:07 · 1206 阅读 · 0 评论 -
Python下MySQL数据库操作
Python 简单的MySQL数据库操作参考链接1、首先需要下载安装MySQL-python模块2、数据库的操作流程 Python的DB-API,为大多数的数据库实现了接口,使用它连接各数据库后,就可以用相同的方式操作各数据库。Python DB-API使用流程: 引入 API 模块获取与数据库的连接执行SQL语句和存储过程关闭数据库连接测试代码:# -*- encoding: utf-原创 2015-12-16 17:14:05 · 743 阅读 · 1 评论 -
Scrapy安装和测试小问题
安装指南如果想通过pip安装,Windows需要先安装pip,然后在命令行中:pip install Scrapy一般来讲会直接安装成功,但是安装过程中还是遇到了一些小bug:1、Failed building wheel for lxml(或twisted),尝试用pip安装lxml时出现,结果提示如上,提示没有安装libxml12和libxslt,那就先手动去安装l原创 2015-12-10 16:08:38 · 3058 阅读 · 2 评论 -
MySQL-python安装小问题
果然在windows上安装东西还是直接暴力地用exe最方便用pip install MySQL-python安装报错, Failed building wheel for MySQL-pythonSO上也是推荐直接用exe,所以还是赏它个痛快得了。MySQL-python.exe链接在此原创 2015-12-12 10:37:48 · 3061 阅读 · 1 评论 -
图床爬虫
贴一个知乎的回答不贴代码的都是耍流氓!===========================这是很久以前写的第一个爬虫,为了爬一个新发现的图床网站(没错,服务器在美国,上面有你想要的东西,自己去发掘吧)不过网速很一般,还经常掉线,需要有耐心。不知道会不会被和谐,为了满足大家好奇心放出来吧http://ihostimg.com/几个月之前写的了,刚刚试了下,还可以跑,看来原创 2015-08-20 17:52:12 · 2723 阅读 · 1 评论 -
百度图片爬虫
功能说明:依次输入关键字,开始页码,结束页码(每页6张图)其中,由于设定了timeout和其他错误检测,所以每页不一定6张都能爬下来。有需求的拿去爬图用吧,仅供交流参考。不要乱爬,以免百度专门封堵,想用的都用不了了。以后如果有时间再用pyqt做成界面吧。代码如下:#!/usr/bin/env python#! -*- coding: utf-8 -*-import urll原创 2015-08-20 17:42:55 · 3914 阅读 · 1 评论 -
[python]糗百热点爬虫v2.0【15/4/21更新】
刚刚测试了糗百爬虫,结果第二天糗百的源代码就换格式了= = 重新改了正则表达式发上来:#! -*- coding:utf-8 -*-#! usr/bin/python'''#=====================================================# FileName: Spider_qb.py# Describe: 从糗百下载段子并依次播放#原创 2015-04-21 23:24:02 · 813 阅读 · 0 评论 -
[python爬虫]使用urllib函数urlretrieve报错[socket error][Errno 10054]
为了练手,使用爬虫爬一个“你懂得”图床的,使用的是urlretrieve函数,不但速度慢,还总是会报错,不是open的timeout就是上面提到的socket error。在网上找了许多办法诸如在urllib2.Request.urlopen().read()后需要调用close()关闭等方法并未奏效。 由于不想麻烦scrapy等库,所以发现了个简单粗暴的办法: 直接使用urllib自带的ope原创 2015-04-26 12:34:12 · 8996 阅读 · 2 评论 -
[python][爬虫]暴漫gif下载
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制#!/usr/bin/env python#! -*- coding: utf-8 -*-#图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif" style="width:460px"import urllib,urllib2i原创 2015-04-26 12:14:56 · 1868 阅读 · 0 评论 -
[python]糗百热点爬虫
有小部分的修改,并加入详细注释#! -*- coding:utf-8 -*-#! usr/bin/python'''#=====================================================# FileName: Spider_qb.py# Describe: 从糗百下载段子并依次播放# Modifier: sunny# Sinc原创 2015-04-20 16:14:45 · 881 阅读 · 0 评论 -
百度贴吧爬虫【练手】
参考这个博客,看前面几章没什么感觉,还是到了这一章,参考实际的例子,自己动手写个东西出来的时候,需要自己查string、open等用法,边查边记边写理解的透彻。整体是照葫芦画瓢,为了练手用,也加了一些指定下载目录,默认下载目录等函数,可以直接运行#! -*- coding:utf-8 -*-#! usr/bin/python# 爬贴吧测试程序import string,urllib2原创 2015-04-06 10:59:36 · 1235 阅读 · 0 评论 -
[python][爬虫]从网页中下载图片
说明:仅为测试下载图片、正则表达式 测试url为钢铁侠贴吧的一个介绍mark各代盔甲帖子 以下代码将第一页的图片全部下载到本程序根目录#!/usr/bin/env python#! -*- coding: utf-8 -*-import urllib,urllib2import re#返回网页源代码def getHtml(url): html = urllib2.urlopen原创 2015-04-23 11:33:46 · 1574 阅读 · 0 评论 -
【爬虫】码了个毕业照爬虫
怪不得都说压力山大,连山大服务器压力都太大了。并且编辑直接把图片挂到一个页面上是什么意思= =,一张照片8M+,反正外网速度台有限了。索性写个爬虫让他慢慢下吧,顺便当学习练手了。。。(PS:不知道为什么在windows下面在页面中用迅雷下载全部链接也无效,不知道什么原因?)一共192组图片,前20组由于网页上顺序有问题,后期爬虫写完后又懒得改正则匹配了,所以就这样吧_(:з」∠)_原创 2015-07-08 16:59:27 · 1240 阅读 · 0 评论