爬取邮政服务网点

39 篇文章 3 订阅

网站链接:http://www.chinapost.com.cn/html1/folder/181312/9531-1.htm?prov=吉林

import requests
from lxml import etree
import pandas as pd

url='http://iframe.chinapost.com.cn/jsp/type/institutionalsite/SiteSearchJT.jsp?community=ChinaPostJT&prov=%E5%90%89%E6%9E%97&pos='

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.90 Safari/537.36 2345Explorer/9.3.2.17331',
    'Referer': r'https://baike.baidu.com',
    'Connection': 'keep-alive'
}
def cookie():
    with open('cookie.txt','r') as f:
        cookies={}
        for line in f.read().split(';'):
            name,value=line.strip().split('=',1)
            cookies[name]=value 
        return cookies

results=pd.DataFrame()
for i in range(100):
    r=requests.get(url+str(i*10),headers=headers,cookies=cookie()).text
    comments=etree.HTML(r)
    c1=comments.xpath('/html/body/table/tr/td[1]/text()')
    c2=comments.xpath('/html/body/table/tr/td[2]/text()')
    c3=comments.xpath('/html/body/table/tr/td[3]/text()')
    c4=comments.xpath('/html/body/table/tr/td[4]/text()')
    c5=comments.xpath('/html/body/table/tr/td[5]/text()')
    c6=comments.xpath('/html/body/table/tr/td[6]/text()')
    c7=comments.xpath('/html/body/table/tr/td[7]/text()')
    result=pd.DataFrame([c1,c2,c3,c4,c5,c6,c7]).T
    results = results.append(result)
    
results.to_excel('Result.xlsx',encoding='gbk')

更多爬虫实例请见 https://blog.csdn.net/weixin_39777626/article/details/81564819

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值