关闭

python多线程定向爬虫

标签: python多线程
433人阅读 评论(0) 收藏 举报
分类:
#!/bin/bash/env python
import MySQLdb
import requests
import threading


def toWrite(fp,lst,url):
for i in lst: 
testurl = url+i[0]               //定向url
testurl = testurl.lower()
print testurl
rsp = requests.get(testurl)
print rsp.status_code
fp.write(i[0]+'\t'+str(rsp.status_code)+'\n')


url = 'http://127.0.0.1/u/'
conn = MySQLdb.connect('127.0.0.1','root','123456','coupon_site')
cur = conn.cursor()
res = cur.execute('select user_name_slug from app_coupon_api where couponid>642369')
lst = cur.fetchall()
fp = open('404.txt','w+')
threads = []
for i in range(0,len(lst),150000):   //分片,线程个数为:  总数组长度/150000  
t = threading.Thread(target=toWrite,args=(fp,lst[i:i+150000],url))   //多线程参数传递
threads.append(t)


for t in threads:   //循环开启线程,setDaemon不等待同步
t.setDaemon(True)
t.start()
print(len(threads))
for t in threads:
t.join()

0
1
查看评论
发表评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场

Python爬虫:初探多线程爬虫

Python爬虫 上篇,我们已经创建了一个基本的爬虫,用来抓取动态网页的信息。经过测试,爬虫的速度太慢,我们需要改进。这篇我会介绍如何实现一个多线程的python爬虫来提高抓取网页的效率。 基础...
  • u013787595
  • u013787595
  • 2015-10-27 12:14
  • 7969

一个用Python实现的多入口全网爬的多线程爬虫的实现

最近做计网大作业,要求实现一个爬虫抓取网络上关于人工智能的有关信息,于是就自己diy了一个,然后丢到服务器上跑,勉勉强强能达到十万级的数据量,也算能交差了。 下面就把实现过程记录一下,一来可以做个笔记...
  • Youthjack
  • Youthjack
  • 2016-12-07 22:44
  • 4349

Python多线程、异步+多进程爬虫实现代码

安装Tornado 省事点可以直接用grequests库,下面用的是tornado的异步client。 异步用到了tornado,根据官方文档的例子修改得到一个简单的异步爬虫类。可以参考下最新的文档...
  • zhangtian6691844
  • zhangtian6691844
  • 2016-06-17 15:36
  • 1105

Python多线程爬虫

  • 2016-11-07 14:21
  • 33KB
  • 下载

Python爬虫支持命令行处理、多线程、日志、配置文件的读取

  • 2017-11-03 16:35
  • 12KB
  • 下载

python 多线程爬虫

  • 2017-04-06 17:30
  • 130KB
  • 下载

python爬虫(中)--多进程和多线程

前面我们见到了基本爬虫的请求、提取和保存,这是一个基本爬虫应该有的结构,那么这时候的这个爬虫有了能爬能存的能力,但是这种能力是很弱的,弱主要体现在三点:①爬虫本身健壮性并不高,有很多情况不一定考虑到;...
  • qq_29245097
  • qq_29245097
  • 2016-08-26 17:41
  • 3511

python爬虫爬学校民主湖论坛(3)----------多线程搜索帖子

本文提到的功能已经在上一篇文章中实现 过。这次则是尝试用线程池来加速访问,一则是练习一下线程池使用的方法,而是为下一步实现回复内容的爬取做准备。首先,感谢Adam_Kevint对我的关注,本来只是想写...
  • nianhua120
  • nianhua120
  • 2015-03-19 16:39
  • 687

python多线程图片爬虫

学习python后写的第一个程序:抓妹子图。。。
  • hit_fantasy
  • hit_fantasy
  • 2014-06-08 16:00
  • 1706

Python爬虫之路——简单网页抓图升级版(增加多线程支持)

转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗,将上一篇文章介绍的爬虫稍微改进了下(Python爬虫之路——简单网页抓图),主...
  • txg703003659
  • txg703003659
  • 2014-06-13 09:56
  • 14700
    个人资料
    • 访问:218542次
    • 积分:4805
    • 等级:
    • 排名:第6970名
    • 原创:264篇
    • 转载:77篇
    • 译文:3篇
    • 评论:5条
    文章分类