第一步是数据抓取(py2.7完成的):
import urllib2
import re
import os
body =urllib2.urlopen("http://www.9ku.com/geshou/722.htm")
str= body.read()
pos =str.find('826828@')#查找字符串,第一次出现的位置
pos1=str.find("485.")#最后一首歌的位置
vals= str[pos:pos1]
arr=vals.split('geci/')
k=0
data_arr=[]
for data in arr:
end=data.find(".htm")
if k>0:
data_arr.append(data[0:end] )
k=k+1
#print data_arr
#
#
url="http://www.9ku.com/geci/"
def readMsg(data):#读取数据并清洗
dr = re.compile(r']+>',re.S)
clsStr = dr.sub('',data)
clsStr= re.sub("[A-Za-z0-9\[\`\u3000\~\:\!\@\