Python爬虫---爬取数据(上)

最新推荐文章于 2024-06-07 09:46:02 发布

kestiny

最新推荐文章于 2024-06-07 09:46:02 发布

阅读量3.8w

点赞数 4

分类专栏： Python/机器学习文章标签： python 爬虫数据

本文链接：https://blog.csdn.net/chlk118/article/details/52937671

版权

又是女票，拿了3万多条的13年某地区的公司信息，但是三年过去了，工商局的注册信息发生了巨大变化，有的注册资本增加了，有的公司老板变多了，更有不少公司不存在了，因此，需要一份最新的信息以便于她进行使用。
　　原先是想用工商局网站上进行爬取的，但是发现工商局网站好多验证信息，毕竟我这Python初学咋练的，是在是怕怕啊！幸好，找到一个名为XX查的网站，这个网站没有验证，可以直接查询，因此就拿这个网站来吧。
　　经过研究，发现必须要解析JavaScript才能拿到真实的数据，网上查找了下，发现使用phantomjs是比较简单的一种方式，于是就他了。
　　我的思路是这样的，数据是在文件中，查询后肯定有两种结果，查找成功的和查找失败的，这两种各自写在一个文件中，以便之后使用。对于成功的数据，继续对其查找联系方式，注册资金，开业状态等等需要的数据。这一块应该是一个类来进行的。另外一个类，打算使用Python内置的tkinter模块，写一个简单的界面，配置这两个文件，和显示实时的查询信息的。
以下是核心的爬虫类：

   class TianYanCha(object):
	def __init__(self, sucPath, failedPath):
		super(TianYanCha, self).__init__()
		self.fileSuc = open(sucPath, 'a')
		self.fileFailed = open(failedPath, 'a')
		self.driver = webdriver

最低0.47元/天解锁文章

kestiny

关注

4
点赞
踩
29

收藏

觉得还不错? 一键收藏
23
评论
Python爬虫---爬取数据(上)

又是女票，拿了3万多条的13年某地区的公司信息，但是三年过去了，工商局的注册信息发生了巨大变化，有的注册资本增加了，有的公司老板变多了，更有不少公司不存在了，因此，需要一份最新的信息以便于她进行使用。原先是想用工商局网站上进行爬取的，但是发现工商局网站好多验证信息，毕竟我这Python初学咋练的，是在是怕怕啊！幸好，找到一个名为天眼查的网站，这个网站没有验证，可以直接查询，因此就拿这个网站
复制链接

扫一扫

专栏目录