因为要做去转盘网(分类模式点我),所以一定要爬取网盘资源,本来想自己写一个爬虫挺不容易的,不想分享出来,但最后还是决定了拿给大家一起看吧,毕竟有交流才有进步,有兴趣的朋友也可以看看我写的其他日志或者关注我,会发现去转盘网的大部分技术现在可以说是公开状态,如有对你有帮助还是认真读读吧,下面是爬虫代码,我立马公开:
ps:不会python的孩子先去学学python,代码是python写的
其实还有个磁力站,不过暂时技术不想公开出来,之后也想公开,喜欢的看看:ok搜搜
2019年10月修正文章:
目前自主爬虫的获取方式已经基本失效,google自定义的方式获得的资源质量也不是太高,当前最省事,简洁的 方式可以采用直接调用接口
推荐用这个平台:
网盘接口:
TEL:继本篇之后,以下是其他所有重要的博客,喜欢的可以看看:
#coding: utf8
"""
author:haoning
create time: 2015-8-15
"""
import re #正则表达式模块
import urllib2 #获取URLs的组件
import time
from Queue import Queue
import threading, errno, datetime
import json
import requests #Requests is an Apache2 Licensed HTTP library
import MySQLdb as mdb
DB_HOST = '127.0.0.1'
DB_USER = 'root'
DB_PASS = ''
#以下是正则匹配规则
re_start = re.compile(r'start=(\d+)') #\d 表示0-9 任意一个数字 后面有+号 说明这个0-9单个数位出现一到多次 比如21312314
re_uid = re.compile(r'query_uk=(\d+)') #查询编号
re_urlid = re.compile(r'&urlid=(\d+)') #url编号
ONEPAGE = 20 #一页数据量
ONESHAREPAGE = 20 #一页分享连接量
#缺少专辑列表
URL_SHARE = 'http://yun.baidu.com/pcloud/feed/getsharelist?auth_type=1&start={start}&limit=20&query_uk={uk}&urlid={id}' #获得分享列表
"""
{"feed_type":"share","category":6,"public":"1","shareid":"1541924625","data_id":"2418757107690953697","title":"\u5723\u8bde\u58c1\u7eb8\u5927\u6d3e\u9001","third":0,"clienttype":0,"filecount":1,"uk":1798788396,"username":"SONYcity03","feed_time":1418986714000,"desc":"","avatar_url":"http:\/\/himg.bdimg.com\/sys\/portrait\/item\/1b6bf333.jpg","dir_cnt":1,"filelist":[{"server_filename":"\u5723\u8bde\u58c1\u7eb8\u5927\u6d3e\u9001","category":6,"isdir":1,"size":1024,"fs_id":870907642649299,"path":"%2F%E5%9C%A3%E8%AF%9E%E5%A3%81%E7%BA%B8%E5%A4%A7%E6%B4%BE%E9%80%81","md5":"0","sign":"1221d7d56438970225926ad552423ff6a5d3dd33","time_stamp":1439542024