爬虫公开
LKJLKJKL
这个作者很懒,什么都没留下…
展开
-
爬取西*网的ip 并验证其有效性
爬取西刺上的代理IP,并验证代理可用性原创 2019-05-24 16:05:36 · 312 阅读 · 0 评论 -
python++++多线程爬取豆瓣网的书单
import requests as reqsimport threadingimport time#Some User Agentshds={'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6','User-Agent':'Moz...原创 2019-05-23 17:00:18 · 464 阅读 · 0 评论 -
1.1 python爬虫++++ user-agent池
'''包含三个函数:''' import randomuser_agent_list_2 = [ # Opera "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1...原创 2019-06-03 11:24:45 · 508 阅读 · 0 评论 -
python 多线程爬虫
#wenzheng_spider.py# encoding:utf-8import numpy as np import requests as reqsimport utils_wz as utimport wenzheng_item as itemfrom concurrent.futures import ProcessPoolExecutor,ThreadPoolExecut...原创 2019-06-26 10:36:31 · 395 阅读 · 0 评论 -
爬取百度图片---可以下载10000+张,多线程更快,python实现
from pprint import pprintimport reimport requestsimport jsonimport timeimport threading# 要运行该爬虫,在命令行输入如下命令即可:# 'python 百度图片cmd.py -k "张伯芝" -p 2 -d "pic_dir"'# 'python 百度图片cmd.py -k "搜索关键词" ...原创 2019-06-27 14:00:36 · 2254 阅读 · 1 评论