多线程爬取百度百科

  • 前言:
    EVERNOTE里的一篇笔记,我用了三个博客才学完...真的很菜...百度百科和故事网并没有太过不一样,修改下编码,debug下,就可以爬下来了,不过应该是我爬的东西太初级了,而且我爬到3000多条链接时,好像被拒绝了...爬取速度也很慢,估计之后要接触一些优化或者多进程,毕竟python是假的多线程。
    本博客参照代码及PROJECT来源:http://kexue.fm/archives/4385/

  • 源代码:
     1 #! -*- coding:utf-8 -*-
     2 import requests as rq
     3 import re
     4 import time
     5 import datetime
     6 from multiprocessing.dummy import Pool,Queue
     7 import pymysql
     8 from urllib import parse
     9 import html
    10 import importlib
    11 from urllib.request import urlopen
    12 from bs4 import BeautifulSoup
    13 unescape = html.unescape #用来实现对HTML字符的转移
    14 
    15 tasks = Queue()
    16 tasks_pass = set() #已队列过的链接
    17 tasks.put('http://baike.baidu.com/item/科学')
    18 count = 0 #已爬取页面总数
    19 
    20 url_split_re = re.compile('&|\+')
    21 def clean_url(url):
    22     url = parse.urlparse(url)
    23     return url_split_re.split(parse.urlunparse((url.scheme, url.netloc, url.path, '', '', '')))[0]
    24 
    25 def main():
    26     global count,tasks_pass
    27     while True:
    28         url = tasks.get() #取出一个url,并且在队列中删除掉
    29         web = rq.get(url).content.decode('utf8','ignore')
    30         urls = re.findall(u'href="(/item/.*?)"', web) #查找所有站内链接
    31         for u in urls:
    32             try:
    33                 u = rq.get(u).content.decode('utf8')
    34             except:
    35                 pass
    36             u = 'http://baike.baidu.com' + u
    37             u = clean_url(u)
    38             if (u not in tasks_pass): #把还没有队列过的链接加入队列
    39                 tasks.put(u)
    40                 tasks_pass.add(u)
    41             web1 = rq.get(u).content.decode('utf8', 'ignore')
    42             bsObj = BeautifulSoup(web1, "lxml")
    43             text = bsObj.title.get_text()
    44             print(datetime.datetime.now(), '   ', u, '   ', text)
    45             db = pymysql.connect("localhost", "testuser", "test123", "TESTDB", charset='utf8')
    46             dbc = db.cursor()
    47             sql = "insert ignore into baidubaike(url,title) values(%s,%s);"
    48             data = (u, text)
    49             dbc.execute(sql, data)
    50             dbc.close()
    51             db.commit()
    52         count += 1
    53         if count % 100 == 0:
    54             print(u'%s done.' % count)
    55 
    56 pool = Pool(4, main) #多线程爬取,4是线程数
    57 total = 0
    58 while True: #这部分代码的意思是如果20秒内没有动静,那就结束脚本
    59     time.sleep(60)
    60     if len(tasks_pass) > total:
    61         total = len(tasks_pass)
    62     else:
    63         break
    64 
    65 pool.terminate()
    66 print("terminated normally")

     


  • BUG:
    raise RemoteDisconnected("Remote end closed connection without" http.client.RemoteDisconnected: Remote end closed connection without response

    问题在于没有伪装请求头

    来源:http://blog.csdn.net/u013424864/article/details/60778031



 

转载于:https://www.cnblogs.com/vorphan/p/7476431.html

以下是Python多线程爬取百度图片的示例代码: ```python import requests import os import re from queue import Queue from threading import Thread class BaiduImageSpider: def __init__(self, keyword, save_path): self.keyword = keyword self.save_path = save_path self.img_urls = Queue() # 图片链接队列 self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} self.page_url = 'https://image.baidu.com/search/index?tn=baiduimage&word={}&pn={}&ie=utf-8' def download_img(self): while True: img_url = self.img_urls.get() try: img_data = requests.get(img_url, headers=self.headers, timeout=10).content except Exception as e: print('下载图片出错:', e) else: file_name = os.path.join(self.save_path, re.split('[/.]', img_url)[-2] + '.jpg') with open(file_name, 'wb') as f: f.write(img_data) print('下载图片:', file_name) finally: self.img_urls.task_done() # 标记任务完成 def get_img_urls(self, page_num): try: page_url = self.page_url.format(self.keyword, page_num * 30) html = requests.get(page_url, headers=self.headers, timeout=10).text except Exception as e: print('获取图片链接出错:', e) return [] else: img_urls = re.findall('"thumbURL":"(.*?)"', html) return img_urls def start(self, thread_num=10, page_num=10): if not os.path.exists(self.save_path): os.makedirs(self.save_path) # 创建多个线程用于下载图片 for i in range(thread_num): t = Thread(target=self.download_img) t.daemon = True # 设置为守护线程 t.start() # 获取图片链接并加入队列 for i in range(page_num): img_urls = self.get_img_urls(i) for img_url in img_urls: self.img_urls.put(img_url) # 等待队列中的任务完成 self.img_urls.join() if __name__ == '__main__': spider = BaiduImageSpider('猫', 'images') spider.start(thread_num=10, page_num=10) ``` 上述代码中,`BaiduImageSpider` 类用于爬取百度图片,其中 `download_img()` 方法用于下载图片,`get_img_urls()` 方法用于获取图片链接,`start()` 方法用于启动多线程下载图片。在 `start()` 方法中,首先创建多个线程用于下载图片,然后获取图片链接并加入队列,最后等待队列中的任务完成。其中,`Queue` 类用于实现线程间的通信,`Thread` 类用于创建线程。在 `download_img()` 方法中,使用 `requests` 库下载图片,并将图片保存到指定路径,使用队列的 `task_done()` 方法标记任务完成。在 `get_img_urls()` 方法中,使用 `requests` 库获取页面内容,并使用正则表达式获取图片链接。在 `start()` 方法中,使用 `os` 库创建保存图片的目录,使用参数 `thread_num` 和 `page_num` 分别设置线程数和下载页数。最后,通过调用 `start()` 方法启动多线程下载图片。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值