用 python 获取域名列表 再进行备案查询

需要在众多的二手域名中查询他的备案信息,

需要安装beautifulSoup,进行提取,原来是想将内容都获取出来,但是由于批量查询的网站不支持抓取,也没有继续研究,就直接用webbrowser了

http://blog.csdn.net/csapr1987/article/details/9329461

这个是域名列表的源 http://www.wy888.com/news.asp

获取了域名之后,进行拼凑url   

url ='http://beian.links.cn/beian.asp?domains=mp1973.com'+l

每次打开5个页面,否则机器受不了,就是每次进行网页查询50个域名

在http://beian.links.cn下进行查询,需要对这个网站说Thx,


#-*- coding: utf-8 -*-
# by sunlei
import datetime
import urllib2
import httplib
import re
import bs4
import webbrowser
from bs4 import BeautifulSoup
class findurl:
    def __init__(self,url):
        self.url=url
    def read(self):
        req=self.url
        try:
            webpage= urllib2.urlopen(req)
            data=webpage.read()
        except:
            print 'wrong'
            return 'error'
        self.data = data
    def findcom(self):
        self.listcom=[]
        soup = BeautifulSoup(self.data)
        lista=soup.findAll(text=re.compile("com")) #根据需要自行修改
        self.listcom=lista
    def listcom(self):
        self.read()
        self.findcom()
        return self.listcom
class readbeian:
    def __init__(self,listcom):
        self.listcom=listcom
    def writeurl(self):
        self.lista=[]
        for i in range(0,len(self.listcom),9):
            a=self.listcom[i:i+9]
            b=''
            for j in a:
                b=b+'%0D%0A'+j
            self.lista.append(b)
        return self.lista

    def readbeian(self):
        for i in range(0,len(self.lista),5):
            listl=self.lista[i:i+5]
            for l in listl:
                url ='http://beian.links.cn/beian.asp?domains=mp1973.com'+l
                webbrowser.open(url, new=0,autoraise=1)
            a=raw_input('继续打开5个网页 Y or N')
            if a=='Y':
                continue


a=findurl('http://www.wy888.com/news.asp')
b=readbeian(a.listcom())
print b.writeurl()
b.readbeian()


  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值