Python爬虫---爬取数据(上)

又是女票,拿了3万多条的13年某地区的公司信息,但是三年过去了,工商局的注册信息发生了巨大变化,有的注册资本增加了,有的公司老板变多了,更有不少公司不存在了,因此,需要一份最新的信息以便于她进行使用。
  原先是想用工商局网站上进行爬取的,但是发现工商局网站好多验证信息,毕竟我这Python初学咋练的,是在是怕怕啊!幸好,找到一个名为XX查的网站,这个网站没有验证,可以直接查询,因此就拿这个网站来吧。
  经过研究,发现必须要解析JavaScript才能拿到真实的数据,网上查找了下,发现使用phantomjs是比较简单的一种方式,于是就他了。
  我的思路是这样的,数据是在文件中,查询后肯定有两种结果,查找成功的和查找失败的,这两种各自写在一个文件中,以便之后使用。对于成功的数据,继续对其查找联系方式,注册资金,开业状态等等需要的数据。这一块应该是一个类来进行的。另外一个类,打算使用Python内置的tkinter模块,写一个简单的界面,配置这两个文件,和显示实时的查询信息的。
以下是核心的爬虫类:

   class TianYanCha(object):
	def __init__(self, sucPath, failedPath):
		super(TianYanCha, self).__init__()
		self.fileSuc = open(sucPath, 'a')
		self.fileFailed = open(failedPath, 'a')
		self.driver = webdriver
  • 4
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 23
    评论
评论 23
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值