python爬虫之云片网国内短信接口爬取

最新推荐文章于 2024-07-10 14:15:24 发布

GreenUmbrella

最新推荐文章于 2024-07-10 14:15:24 发布

阅读量2.1k

点赞数

分类专栏： python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_33496991/article/details/84800677

版权

本文介绍了使用Python进行网络爬虫的实践案例，通过requests库抓取云片网国内短信接口的数据，再利用lxml进行解析，接着使用pandas进行数据转换，并最终用openpyxl将数据保存到Excel文件中。

摘要由CSDN通过智能技术生成

安装requests，lxml，openpyxl，pandas四个包。
requests爬取
lxml解析
panda转换并保存
openpyxl是读写excel文件所用到的包

代码奉上：

import pandas as pandas
import requests
from lxml import etree

URL = "https://www.yunpian.com/doc/zh_CN/domestic/list.html"


# 获取资源
def get_resource(url):
    return requests.get(url).content.decode('utf-8')


# 解析资源
def analysis_resource(html_text):
    html = etree.HTML(html_text)
    ports = html.xpath('//*[@id="book-search-results"]/div[1]/section/table/tbody/tr/td[1]/a/text()')
    links = html.xpath('//*[@id="book-search-results"]/div[1]/section/table/tbody/tr/td[2]/code/text()')
    descs = html.xpath('//*[@id="book-search-results"]/div[1]/section/table/tbody/tr/td[3]/text()')
    return zip(ports, links, descs)


# 保存资源
def save_resource(zip