1工具
2具体方法
1、使用python2.7编写爬取脚本
这里除了正常的爬取操作,还增加了独立的参数设定。如果没有参数,爬取的数据就在当前目录下;如果有参数,可以设定保存目录、保存文件名后缀。这样的话,这个脚本既可以单独使用,也可以配合sh定时任务使用。
双色球爬取代码grab500_ssq.py内容:
# -*- coding:utf-8 -*-
import re
import urllib
import time
import sys
datapath = sys.path[0]
datasuffix = 'txt'
if (len(sys.argv)>1):
datapath = sys.argv[1]
datasuffix = sys.argv[2]
def getHtml(url):
html = urllib.urlopen(url)
return html.read()
html = getHtml("http://zx.500.com/ssq/")
reg = ['
([0-9]\d*).*']reg.append('
([0-9]\d*)')reg.append('
([0-9]\d*)')outstr = "";
for i in range(len(reg)):
page = re.comp