先抓取一个页面的内容,以后再慢慢完善。
#中国A股核心题材爬虫0.1 # import urllib2 import urllib import re #建立一个爬虫的类HeXin_Spider class HeXin_Spider(object): """docstring for 建立一个爬虫的类HeXin_Spider""" def __init__(self, arg): pass #初始化好mysql数据库相关操作 def MyDb(self): pass #活取核心题材的页面(上海沪市) def GetShPage(self): Scode = range(600000,600999) i = 0 while (i < len(Scode)): MyUrl = "http://f10.eastmoney.com/f10_v2/CoreConception.aspx?code=sh"+str(Scode[i]) MyReq = urllib2.Request(MyUrl) MyResponse = urllib2.urlopen(MyReq) MyPage = MyResponse.read() unicodePage = MyPage.decode("utf-8") MyItems = re.findall('<div class="summary">(.*?)</div>',unicodePage) if len(MyItem) == 0: break else: mydb = MySQLdb.connect("127.0.0.1","root","","pa",use_unicode=True, charset="utf8") cursor = mydb.cursor() sql = "insert into stock(scode,ticai) values('%d','%s')" %(Scode[i],MyItems[0]) cursor.execute(sql) mydb.commit() mydb.close() i = i + 1 def GetSzPage(self): pass def GetZxPage(self): pass def GetChyPage(self): pass
测试执行了一下,总是执行到一半的时候,出错,数据库里面已经有相关数据了,好像一抓取到600365就出错了,不知道为什么。继续查找问题。