爬虫——python

import codecs,sys
import urllib.request
import re
dict1 = {}
f=codecs.open('Fi.txt','w')
url1 = 'http://oeis.org/wiki/Index_to_OEIS:_Section_Fi'
print(url1)
f.write(url1)
f.write('\n')
req1=urllib.request.Request(url1)
content1=urllib.request.urlopen(req1).read().decode('utf-8')
eachs = re.compile('<a href="http://oeis.org/A.*?">A',re.S)#获取000027(没全)
eachs = re.findall(eachs,content1)
for i in range(len(eachs)):#循环获取A000027,A000028等等
    a =eachs[i]
    each = a.partition('oeis.org/A')[2].partition('">')[0]#获取002718
    if each == '':
        continue
    if len(each) == 7:
        each = each[1:]
    if each in dict1:
            dict1[each]=dict1[each]+1
            continue
    else:
        dict1[each]=1
        url2 = r'https://oeis.org/A'+each+'/b'+each+'.txt'#获取网址
        print(url2)
        f.write(url2)
        f.write('\n')
        req2=urllib.request.Request(url2)
        content2=urllib.request.urlopen(req2).readlines()
        count = 0
        for line in content2:
            line = line. decode('utf-8')
            line = line.strip()
            if line == '':
                continue
            line = line.split()
            if len(line) > 2 or len(line) == 1:
                continue
            count +=1
            if count % 101 == 0:
                break
            print(line[1])
            f.write(line[1]+' ')
        f.write('\n')
f.close()




     
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值