Web_parser

最新推荐文章于 2021-04-18 09:25:04 发布

mzg12345678

最新推荐文章于 2021-04-18 09:25:04 发布

阅读量218

点赞数

# -*- coding:utf-8 _*-

import sys
import os
import math
import threading

import urllib
import urllib2
import re
import threading
import socket
import codecs

import time
from multiprocessing import Process, Lock, Queue, Manager
from multiprocessing.managers import BaseManager

reload(sys)
sys.setdefaultencoding('utf8')

base_template = ""
new_template = ""

def extract_segment(data):
pat = re.compile(r"<td>\d+</td><td>(.+?)</td><td>POS_")
term_list = re.findall(pat, data)
return "|".join(term_list)


class QueryFeature(object):
def __init__(self,query):
self.query = query
self.new_segment =""
self.base_segment = ""

#global variables
g_lock = Lock()
g_total_task = []

#ok
def prepare_tasks(fname):
for line in open(fname):
line = line.strip()
if not line:
continue

qf = QueryFeature(line)
g_total_task.append(qf)

def pipeline():
fname = sys.argv[1]
prepare_tasks(fname)

multi_get()

def craw_page(url,query):
encoded_query = urllib.urlencode({"kw":query.encode("UTF-8")})
f = None

page_html = None
for i in range(10):
try:
if not f:
f = urllib2.urlopen(url + encoded_query,timeout=100)
except:
continue

page_html = f.read()

if page_html.find("Raw query") < 0:
continue
else:
return (True,page_html)

return (False,None)

#ok
def fill_data(total_task,begin,end,out):
for i in range(begin,end):
qf = total_task[i]
query = qf.query

res1 = craw_page(base_template,query)
if not res1[0]:
continue
res2 = craw_page(new_template,query)
if not res2[0]:
continue

qf.base_segment = extract_segment(res1[1])
qf.new_segment = extract_segment(res2[1])


with g_lock:
out.put(qf)

#ok
def multi_get():
#split and work in thread
Kthread = 30
load = len(g_total_task)
quota = load/Kthread
remain = load-quota*Kthread
threads = []

manager = Manager()
# 父进程创建Queue，并传给各个子进程：
out = manager.Queue()

for i in range(Kthread):
begin = i*quota
if i != Kthread-1:
end = (i+1)*quota
else:
end = (i+1)*quota + remain


th = Process(target=fill_data,args=(g_total_task,begin,end,out))
th.daemon = True
th.start()
threads.append(th)

for i in range(Kthread):
threads[i].join()

#test
while not out.empty():
qf = out.get()

if qf.base_segment != qf.new_segment:
print "%s\t%s\t%s" %(qf.query,qf.base_segment,qf.new_segment)

pipeline()

mzg12345678

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Web_parser

# -*- coding:utf-8 _*-import sysimport osimport mathimport threadingimport urllibimport urllib2import reimport threadingimport socketimport codecsimport timefrom mu
复制链接

扫一扫