多线程分页法对数据操作


1
int pagesize = 10000; //每多少条数据一个线程 2 int pagenum;//线程数量 3 4 public void start() 5 { 6   try 7   { 8     List<test> testList = new List<test>();//数据集合 9 10     pagenum = getpage(testList.Count, pagesize);//根据数据量求出需要多少线程 11     ManualResetEvent[] events = new ManualResetEvent[pagenum]; 12     if (pagenum < 64) 13     { 14       for (int i = 0; i < pagenum; i++) 15       { 16         events[i] = new ManualResetEvent(false); 17         ThreadPool.SetMaxThreads(10, 10); 18 19         int si = i; 20         int ei = i + 1; 21 22         TestStart bllStart = new TestStart(events[si]); 23         ThreadPool.QueueUserWorkItem(delegate(object notUsed) { bllStart.ForList(si, ei, pagesize, pagenum, testList); }); 24       } 25       ManualResetEvent.WaitAll(events); 26     } 27     else 28     { 29       using (var countdown = new MutipleThreadResetEvent(pagenum)) 30       { 31         for (int i = 0; i < pagenum; i++) 32         { 33 34           int si = i; 35           events[si] = new ManualResetEvent(false); 36           int ei = i + 1; 37           ThreadPool.SetMaxThreads(5, 5); 38           ThreadPool.QueueUserWorkItem(delegate(object notUsed) 39           { 40             TestStart bllStart = new TestStart(events[si]); 41             bllStart.ForList(si, ei, pagesize, pagenum, testList, countdown); 42           }); 43         } 44         countdown.WaitAll(); 45       } 46     } 47 48   } 49   catch (Exception e) 50   { 51 52 53   } 54 } 55 56 57 public int getpage(int i, int j) 58 { 59   int count = 0; 60   int num1 = i % j; 61   if (num1 > 0) 62   { 63     count = (i / j) + 1; 64     if (i / j == 0 && i < j) 65     { 66       count = 1; 67     } 68   } 69   else 70   { 71     count = i / j; 72   } 73   return count; 74 } 75 76 77 78 public class TestStart 79 { 80   ManualResetEvent manualEvent; 81   public TestStart(ManualResetEvent manualEvent) 82   { 83     this.manualEvent = manualEvent; 84   } 85 86   public void ForList(int si, int ei, int pagesize, int pagesInThread, List<test> list) 87   { 88     try 89     { 90       si = si * pagesize; 91       if (ei == pagesInThread) //最后一个线程 92       { 93         //结束条数 94         ei = list.Count; 95       } 96       else 97       { 98         //结束条数 99         ei = ei * pagesize; 100       } 101       for (int i = si; i < ei; i++) 102       { 103         test item = list[i]; 104 105         //操作代码 106       } 107     } 108     catch (Exception e) 109     { 110 111     } 112     finally 113     { 114       manualEvent.Set(); 115     } 116 117   } 118 119 120 121   public void ForList(int si, int ei, int pagesize, int pagesInThread, List<test> list, object state) 122   { 123     MutipleThreadResetEvent countdown = state as MutipleThreadResetEvent; 124     try 125     { 126       si = si * pagesize; 127       if (ei == pagesInThread) //最后一个线程 128       { 129         //结束条数 130         ei = list.Count; 131       } 132       else 133       { 134         //结束条数 135         ei = ei * pagesize; 136       } 137       for (int i = si; i < ei; i++) 138       { 139 140       } 141     } 142     catch (Exception e) 143     { 144 145     } 146     finally 147     { 148       countdown.SetOne(); 149     } 150 151   } 152 }

 

 

线程数量大于64解决方案参考: http://www.cnblogs.com/charley_yang/archive/2010/11/13/1876626.html

/********************************************************************************
  * Copyright © 2001 - 2010Comit. All Rights Reserved.
  * 文件:MutipleThreadResetEvent.cs
  * 作者:杨柳
  * 日期:2010年11月13日
  * 描述:封装 ManualResetEvent ,该类允许一次等待N(N>64)个事件执行完毕
  *
  *       解决问题:WaitHandle.WaitAll(evetlist)方法最大只能等待64个ManualResetEvent事件
  * *********************************************************************************/
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading;
 
namespace TestMutipleThreadRestEvent
{
     /// <summary>
     ///  封装ManualResetEvent
     /// </summary>
     public class MutipleThreadResetEvent : IDisposable
     {
         private readonly ManualResetEvent done;
         private readonly int total;
         private long current;
 
         /// <summary>
         /// 构造函数
         /// </summary>
         /// <param name="total">需要等待执行的线程总数</param>
         public MutipleThreadResetEvent( int total)
         {
             this .total = total;
             current = total;
             done = new ManualResetEvent( false );
         }
 
         /// <summary>
         /// 唤醒一个等待的线程
         /// </summary>
         public void SetOne()
         {
             // Interlocked 原子操作类 ,此处将计数器减1
             if (Interlocked.Decrement( ref current) == 0)
             {
                 //当所以等待线程执行完毕时,唤醒等待的线程
                 done.Set();
             }
         }
 
         /// <summary>
         /// 等待所以线程执行完毕
         /// </summary>
         public void WaitAll()
         {
             done.WaitOne();
         }
 
         /// <summary>
         /// 释放对象占用的空间
         /// </summary>
         public void Dispose()
         {
             ((IDisposable)done).Dispose();
         }
     }
 
}

转载于:https://www.cnblogs.com/Tangcy/p/5458201.html

1、数据采集基本功能 1)支持多任务、多线程数据采集,同时支持一个采集任务多个 多线程、高性能采集器爬虫.net版源码,可采ajax页面 实例运行,即将采集任务规则与采集任务运行进行剥离,方便采集任务的配置、跟踪管理; 2)支持GET、POST请求方式,支持cookie,可满足需身份认真的数据采集,cookie可预先存储,也可实时获取; 3)支持用户自定义的HTTP Header,通过此功能用户可完全模拟浏览器的请求操作,可满足所有的网页请求要求,此功能在数据web发布时尤为有用; 4)采集网址支持数字、字母、日期、自定义字典、外部数据等多种参数,最大化的简化采集网址的配置,从而达到批量化采集的目的; 5)采集网址支持导航操作(即从入口页面自动跳转到需要采集数据的页面),且导航规则支持复杂规则,导航级别不限,可进行多层网址导航; 6)支持采集网址自动翻页、导航层自动翻页,定义翻页规则后系统会自动翻页进行数据采集,同时此功能也可用户分页文章的自动合并操作; 7)网络矿工支持级联采集,即在导航基础上,可自动将不同级别的数据采集下来,并自动合并,此功能也可称为分页采集; 8)网络矿工支持翻页数据合并,即可将多页数据进行合并,典型应用为同一篇文章多页显示,系统翻页采集并合并为一条数据进行输出; 9)数据采集支持文件下载操作,可下载文件、图片、flash等内容; 10)可进行ajax技术构成网页数据的采集; 11)采集规则支持特殊符号的定义,譬如:16进制0x01的非法字符; 12)采集规则支持限定符操作,可精确匹配需要获取的数据; 13)采集网址支持:UTF-8、GB2312、Base64、Big5等编码,同时可自动识别&等符号;网页编码支持:UTF-8、GB2312、Big5等编码; 14)无论是采集网址还是采集规则都支持限定范围及自定义正则; 2、数据采集高级功能 1)支持采集延时操作,可控制系统采集频率,降低对目标网站的访问压力; 2)断点续采模式,及数据实时存储保护用户采集投资,注意:此模式仅限于非大数据量的采集; 3)支持大数据量采集,即实时采集实时入库,不会对系统性能造成任何影响; 4)提供强大的数据加工操作,并可配置多条规则对所采数据同时进行加工: a)支持字符串截取、替换、附加等操作; b)支持采集数据的输出控制,输出含有指定的条件,删除含有指定的条件; c)支持正则表达式替换; b)支持U码转汉字; 5)可自动输出所采页面地址及采集时间,提供采集日志; 6)所采数据可自动保存为文本文件、excel文件,也可自动存储到数据库,数据库支持Access、MSSqlServer、MySql,同时在数据存储过程中还可自动去重重复行,避免数据重复; 7)所采数据也可自动发布到网站,通过配置发布网站参数即可实现数据的在线发布操作(发布配置同采集配置,可定义cookie、HTTP Header等); 8)数据采集支持触发器操作; 9)提供采集规则分析器,辅助用户配置采集规则,并分析错误内容; 10)提供Mini浏览器,可自动捕获网站cookie; 11)支持采集日志,并提供容错处理; 3、触发器 触发器是一种自动化的操作手段,即当满足一定的条件后,系统会自动执行某个操作,利用触发器用户可实现采集任务的连续执行,外部程序的调用,存储过程的调用等。 1)触发器支持两种种触发方式:采集数据完成触发及发布数据完成触发; 2)触发操作支持:执行网络矿工采集任务、执行外部程序、执行存储过程; 4、任务执行计划 定时计划是一种自动化采集数据的手段,用户可根据需要自动控制数据采集的时间、频率; 1)可进行周、日及自定义的时间自动化执行采集任务,并可控制采集任务计划的失效时间; 2)可自动执行的任务有:网络矿工采集任务、外部执行程序及存储过程; 5、网络雷达 网络雷达是一项非常有用的功能,网络雷达主要是根据用户预定规则实现对互联网数据的监控,并按照用于预定的规则进行预警。此功能可用于对网络热门帖子、感兴趣的关键词、商品价格变动的进行监控,并实现对数据的采集。 1)监控源当前仅支持网络矿工
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值