python爬取企业电话_Python爬取天眼查企业数据

最新推荐文章于 2024-03-20 09:34:39 发布

孔昊旻

最新推荐文章于 2024-03-20 09:34:39 发布

阅读量2k

点赞数 2

文章标签： python爬取企业电话

本文链接：https://blog.csdn.net/weixin_36431195/article/details/111913696

版权

作者本机环境：系统-windows10编程语言-PythonPython版本-Python3.6.8解析工具-Xpath(解析工具不唯一，均可，这里只演示xpath)编写工具-Pycharm本内容使用Python语言进行编写，而Python也是编写爬虫比较好的一款编程语言，小白可以快速入门，语法比其他编程语言稍简单一些，那么这里使用的Python面向对象去写的这么一个爬虫文件，对天眼查网站进行爬取...

摘要由CSDN通过智能技术生成

作者本机环境：

系统-windows10

编程语言-Python

Python版本-Python3.6.8

解析工具-Xpath(解析工具不唯一，均可，这里只演示xpath)

编写工具-Pycharm

本内容使用Python语言进行编写，而Python也是编写爬虫比较好的一款编程语言，小白可以快速入门，语法比其他编程语言稍简单一些，那么这里使用的Python面向对象去写的这么一个爬虫文件，对天眼查网站进行爬取，页面经过分析是静态网页，内容抓取相对动态网站要简单的多；直接是按照这样一个思路来写代码，分析出不同页面的url进行分页处理，而拿到的列表页要对其每一个详情的url进行提取，提取到之后使用详情url发起请求抓取详情页面。

在这里补充一点，我使用的是Python3.6.8，而大家可以根据自己的情况去选择，这里是使用的普通爬虫requests进行爬取，那么Python还有强大的第三方库Scrapy框架，能够达到更高效，并且在RedisSpider的延伸中对于爬取到的数据存储速度上非常快，因为redis数据库是基于内存进行存储数据的，更是有一个可以去重的这样一个功能；而scrapy内部的去重原理在源码中是有一个set集合进行去重的，了解Python的肯定对这点不陌生——set集合去重

import requests

from lxml import etree

class TianYanCha():

def __init__(self, url):

self.url = url

# 请求头

self.headers

最低0.47元/天解锁文章

孔昊旻

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
python爬取企业电话_Python爬取天眼查企业数据

作者本机环境：系统-windows10编程语言-PythonPython版本-Python3.6.8解析工具-Xpath(解析工具不唯一，均可，这里只演示xpath)编写工具-Pycharm本内容使用Python语言进行编写，而Python也是编写爬虫比较好的一款编程语言，小白可以快速入门，语法比其他编程语言稍简单一些，那么这里使用的Python面向对象去写的这么一个爬虫文件，对天眼查网站进行爬取...
复制链接

扫一扫