Python爬虫爬企查查数据

  因为制作B2b网站需要,需要入库企业信息数据。所以目光锁定企查查数据,废话不多说,开干! 

  

#-*- coding-8 -*-
import requests
import lxml
import sys
from bs4 import BeautifulSoup
import xlwt
import time
import urllib
 
def craw(url,key_word,x):
    User_Agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0'
#    if x == 0:
#        re = 'http://www.qichacha.com/search?key='+key_word
#    else:
#        re = 'https://www.qichacha.com/search?key={}#p:{}&'.format(key_word,x-1)
    re = r'https://www.qichacha.com/search?key='+key_word
    headers = {
            'Host':'www.qichacha.com',
            'Connection': 'keep-alive',
            'Accept':r'text/html, */*; q=0.01',
            'X-Requested-With': 'XMLHttpRequest',
            'User-Agent':r'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
            'Referer': re,
            'Accept-Encoding':'gzip, deflate, br',
            'Accept-Language':'
  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python是一种功能强大的编程语言,可以用于企查查网站上的数据企查查是一个提供企业信息查询服务的网站,用户可以通过输入企业名称、注册号等信息来获取相关的企业信息。 要企查查数据,首先需要安装Python的相关库,如requests、BeautifulSoup等。然后,使用requests库发送HTTP请求,获取企查查网站的页面内容。可以使用get或post方法来发送请求,并且可以设置请求头信息来模拟浏览器的行为,避免被网站屏蔽。 获取网页内容后,可以使用BeautifulSoup库对页面进行解析。BeautifulSoup提供了各种方法和属性,可以轻松地提取出所需的数据。可以通过标签名、类名、属性等进行定位,然后使用相关的方法来获取数据。 在企查查数据时,需要注意一些反措施。企查查网站可能会对频繁的请求进行限制,如设置验证码、IP封禁等。为了避免被反,可以使用代理IP、延时操作等方法来降低取的频率。 取到的企业信息可以保存到本地文件中,如CSV或Excel格式,以便后续处理和分析。可以使用Python的相关库来进行数据处理和可视化,如pandas、matplotlib等。 总而言之,使用Python企查查数据是一种高效、灵活的方式。Python的简洁语法和丰富的库使得取和处理数据变得方便易行。通过合理的代码设计和反措施,可以有效地获取所需的企业信息。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值