本脚本是在python3.3下执行的,很多的脚本是2.X下,他们有不同的地方,调用文件等等很多变化了,注意一下:
GetInfoByRegex.py:
#!/usr/local/bin/python3
#coding=utf-8
import re
import urllib
import urllib.request
import os
class GetDataClass:
def __init__(self):
self.url = r'' #待挖掘数据的网页网址
self.regex = r'' #挖掘使用的正则表达式
self.savePath = r'D:' #挖掘出来的结果保存的路径
self.fileName = r'result' #保存结果的文件名字
def SaveResult(self):
status = 'true'
html = getPageHtml(self.url)
List = getWhatUwant(self.regex,html)
outStr=''
for x in range(len(List)):
outStr += List[x]+'\n'
try:
fileWrite = open(self.savePath+"\\"+self.fileName,'w')
fileWrite.writelines(outStr)
e