python爬取企业电话_Python爬取天眼查企业数据

作者本机环境:系统-windows10编程语言-PythonPython版本-Python3.6.8解析工具-Xpath(解析工具不唯一,均可,这里只演示xpath)编写工具-Pycharm本内容使用Python语言进行编写,而Python也是编写爬虫比较好的一款编程语言,小白可以快速入门,语法比其他编程语言稍简单一些,那么这里使用的Python面向对象去写的这么一个爬虫文件,对天眼查网站进行爬取...
摘要由CSDN通过智能技术生成

作者本机环境:

系统-windows10

编程语言-Python

Python版本-Python3.6.8

解析工具-Xpath(解析工具不唯一,均可,这里只演示xpath)

编写工具-Pycharm

本内容使用Python语言进行编写,而Python也是编写爬虫比较好的一款编程语言,小白可以快速入门,语法比其他编程语言稍简单一些,那么这里使用的Python面向对象去写的这么一个爬虫文件,对天眼查网站进行爬取,页面经过分析是静态网页,内容抓取相对动态网站要简单的多;直接是按照这样一个思路来写代码,分析出不同页面的url进行分页处理,而拿到的列表页要对其每一个详情的url进行提取,提取到之后使用详情url发起请求抓取详情页面。

在这里补充一点,我使用的是Python3.6.8,而大家可以根据自己的情况去选择,这里是使用的普通爬虫requests进行爬取,那么Python还有强大的第三方库Scrapy框架,能够达到更高效,并且在RedisSpider的延伸中对于爬取到的数据存储速度上非常快,因为redis数据库是基于内存进行存储数据的,更是有一个可以去重的这样一个功能;而scrapy内部的去重原理在源码中是有一个set集合进行去重的,了解Python的肯定对这点不陌生——set集合去重

import requests

from lxml import etree

class TianYanCha():

def __init__(self, url):

self.url = url

# 请求头

self.headers

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值