Python综合实战案例-数据清洗&amp；分析(1)

2401_83641314

于 2024-04-13 01:27:19 发布

阅读量364

点赞数 3

分类专栏：程序员文章标签： python 开发语言

本文链接：https://blog.csdn.net/2401_83641314/article/details/137700103

版权

本文介绍了使用Python爬取豆瓣读书数据的过程，包括数据清洗（处理缺失值、异常值，将非数值数据转换为数值），并对数据进行了探索性分析，如图书数量与年份、评分与年份的关系，价格分布，以及作者和出版社的统计。

摘要由CSDN通过智能技术生成

写在前面：
本次是根据前文讲解的爬虫、数据清洗、分析进行的一个纵隔讲解案例，也是对自己这段时间python爬虫、数据分析方向的一个总结。

本例设计一个豆瓣读书数据⽂件，book.xlsx⽂件保存的是爬取豆瓣⽹站得到的图书数据，共 60671 条。下⾯进⾏探索性数据分析。
在这里插入图片描述

一、清洗爬取的网站数据

1. 导入数据

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rc('font', \*\*{'family':'SimHei'})
# 导⼊数据
df = pd.read_excel('books.xlsx')
# 删除第9列
df = df.drop('Unnamed: 9', axis=1)

2、清洗方法

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
plt.rc('font', \*\*{'family':'SimHei'})
# 导⼊数据
df = pd.read_excel('books.xlsx')
# 删除第9列
df = df.drop('Unnamed: 9', axis=1)

# 对数据做清洗（缺失值与异常值）
df.describe()
df.info()
df.dtypes
"""
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 60671 entries, 0 to 60670
Data columns (total 9 columns):
书名

最低0.47元/天解锁文章

2401_83641314

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Python综合实战案例-数据清洗&amp；分析(1)

本次是根据前文讲解的爬虫、数据清洗、分析进行的一个纵隔讲解案例，也是对自己这段时间python爬虫、数据分析方向的一个总结。本例设计一个豆瓣读书数据⽂件，book.xlsx⽂件保存的是爬取豆瓣⽹站得到的图书数据，共 60671 条。下⾯进⾏探索性数据分析。
复制链接

扫一扫