Pandas借助Python爬虫读取HTML网页表格存储到Excel文件（三十一）

最新推荐文章于 2024-07-08 21:45:17 发布

梦捷者

最新推荐文章于 2024-07-08 21:45:17 发布

阅读量2.9k

点赞数

分类专栏： Pandas使用

本文链接：https://blog.csdn.net/qq_41706810/article/details/106041321

版权

Pandas使用专栏收录该内容

38 篇文章 12 订阅

订阅专栏

实现目标：

网易有道词典可以用于英语单词查询，可以将查询的单词加入到单词本;
当前没有导出全部单词列表的功能。为了复习方便，可以爬取所有的单词列表，存入Excel方便复习涉及技术：

涉及技术：
Pandas：Python语言最强大的数据处理和数据分析库
Python爬虫：可以将网页下载下来然后解析，使用requests库实现，需要绕过登录验证。

0、处理流程

import requests
import requests.cookies
import json
import time
import pandas as pd

1. 登录网易有道词典的PC版，微信扫码登录，复制cookies到文件

PC版地址：http://dict.youdao.com/
Chrome插件可以复制Cookies为Json格式：http://www.editthiscookie.com/

cookie_jar = requests.cookies.RequestsCookieJar()

with open("./course_datas/c32_read_html/cookie.txt") as fin:
    cookiejson = json.loads(fin.read())
    for cookie in cookiejson:
        cookie_jar.set(
            name=cookie["name"],
            value=cookie["value"],
            domain=cookie["domain"],
            path=cookie["path"]
        )
cookie_jar

2. 将html都下载下来存入列表

htmls = []
url = "http://dict.youdao.com/wordbook/wordlist?p={idx}&tags="
for idx in range(6):
    time.sleep(1)
    print("**爬数据：第%d页" % idx)
    r = requests.get(url.format(idx=idx), cookies=cookie_jar)
    htmls.append(r.text)
htmls[0]

3. 使用Pandas解析网页中的表格

# df = pd.read_html(htmls[0])
try:
    df = pd.read_html(htmls[2])
except Exception as e:
    print(e)

print(len(df))
print(type(df))

df[0].head(3)

# 收集6个网页的表格
df_list = []
for html in htmls:
    df = pd.read_html(html)
    df_cont = df[1]
    df_cont.columns = df[0].columns
    df_list.append(df_cont)

# 合并多个表格
df_all = pd.concat(df_list)

df_all.shape

4. 将结果数据输出到Excel文件

df_all[["单词", "音标", "解释"]].to_excel("./course_datas/c32_read_html/网易有道单词本列表.xlsx", index=False)

梦捷者

关注

0
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录