根据excel表的数据在网上搜索获取其他详细数据

import os
import pandas as pd
import requests
from bs4 import BeautifulSoup
import scrapy


def get(company):
    search_url = 'XXX/key='
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
    }
    try:
        response = requests.get(search_url + company, headers=headers)
        selector = scrapy.Selector(text=response.text)
        
        address = selector.xpath('xxx').extract()[0]
        
        print(address)
        return address
    except Exception as e:
        pass
        


# 定义输入文件夹和输出文件路径
input_folder = os.path.join(os.path.expanduser('~'), 'Desktop', 'xxx')
output_file = os.path.join(os.path.expanduser('~'), 'Desktop', 'xxx.xlsx')
futian_file = os.path.join(os.path.expanduser('~'), 'Desktop', 'xxx.xlsx')

# 初始化数据列表
data = []

# 遍历输入文件夹中的每个Excel文件,读取其中的企业名称列并查询,将结果保存到一个DataFrame对象中
for filename in os.listdir(input_folder):
    if not filename.endswith('.xlsx'):
        continue
    filepath = os.path.join(input_folder, filename)
    excel_data = pd.read_excel(filepath,usecols=['Company'],header=0,sheet_name='Sheet1')
    companies = excel_data['Company'].tolist()
    print(filename)
    
    for company in companies:
        # 如果该公司已经被查询过了,则跳过
        if any(d['企业名称'] == company for d in data):
            continue

        # 查询获取地址信息
        address= get(company)

        # 将公司名称和地址信息添加到数据列表中
        data.append({'企业名称': company, '地址': address})

# 将数据列表转换为DataFrame对象
df = pd.DataFrame(data)

# 将DataFrame对象保存到输出文件中
df.to_excel(output_file, index=False)

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值