python和excel数据分析_利用Python处理和分析Excel表中数据实战

最新推荐文章于 2022-08-29 09:00:52 发布

VIP文章 hitomo

最新推荐文章于 2022-08-29 09:00:52 发布

阅读量1.4k

点赞数

文章标签： python和excel数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_26854829/article/details/113973162

版权

作为一个学习用Python进行数据分析的新手来说，通过本文来记录分享一些我在用Python中的pandas、numpy来分析Excel表中数据的数据清洗和整理的工作，目的是熟悉numpy以及pandas基础操作，所有操作利用Excel均可以方便实现。备注：本文中使用的是ipython完成的编辑

数据来源及结构

本文所分析的数据是通过爬虫抓取的微博数据。选取新浪微博为数据平台，选取我国34个省的旅游政务官方微博为研究对象，利用爬虫软件Gooseeker爬取微博信息，包括用户名、粉丝数、开博日期、当月原创微博总数No、当月总微博数N、单条博文的转发数、单条博文的评论数、条博文的点赞数。

爬取的数据表格test.xlsx包括以下几个sheet中，基本表结构见下

126893467_1_20180311020848802

1、All(所有博文)：所有字段见下：其中有用字段是‘用户名、微博内容、时间、转发数、评论数、点赞数’，共有6585条数据(备注：转发数中的缺失值为“转发”，评论数中的缺失值为“评论”，点赞数中的缺失值为“赞”)：

126893467_2_20180311020848943

2、sf(各省信息表，此表中：省份名完整)

126893467_3_201803110208495

3、sfwibo (此表记录的是各个微博账号对应的省份名，省份名不完整，已知各个省份名只有前两个字完整)

126893467_4_2018031102084937

4、base_info2(爬取的微博账户的相关信息)(备注：此处的“昵称”与sfweibo中的“微博用户名”等同)

126893467_5_2018031102084984

本文思路：

Step1：对于All表：1)取出有用字段。2)处理缺失值。3)数据透视

Step2：对于sf 和sfweibo 表：1)以省份名做数据连接成sf_sfweibo。2)并与All表做数据连接sf_sfweibo_All。

Step3：对于base_info表：1)与sf_sfweibo_All做数据连接 2)计算h值 3)处理数据4)计算相关性

Step4：导出最后结果到一个Excel文件中，完成数据处理。、

数据处理过程：

step1 ：

# -*- coding=utf-8 -*-

#导入需要的包

from__future__import division

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

from numpy.randomimport randn

from pandasimport Series, DataFrame

from datetimeimport datetime

import xlrd, openpyxl

xlsx_file = pd.ExcelFile('test1.xlsx')

All = xlsx_file.parse('All')

1)取出有用字段

#删掉表格中的无用列，保留有用列

d1 = All.drop(All.columns[:11], axis=1, inplace = False)

All = d1.drop(d1.columns[-1], axis=1, inplace = False)

#显示表格前五行

All.head()

126893467_6_20180311020849162

#查看去重未处理前表中记录长度

len(All)

126893467_7_20180311020849240

#获取到重复的行的行号的前20个

All[All.duplicated()==True].index[:20]

126893467_8_20180311020849271

#删除掉重复的行，在原值上直接修改

All.drop_duplicates(inplace=True)

len(All)#通过运行结果，可以发现确实删掉了，当前记录条数为6159条

126893467_9_20180311020849334

2)处理缺失值

#处理缺失值，先获取该列，将列中的"转发”、"评论"、"

最低0.47元/天解锁文章

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python和excel数据分析_利用Python处理和分析Excel表中数据实战

作为一个学习用Python进行数据分析的新手来说，通过本文来记录分享一些我在用Python中的pandas、numpy来分析Excel表中数据的数据清洗和整理的工作，目的是熟悉numpy以及pandas基础操作，所有操作利用Excel均可以方便实现。备注：本文中使用的是ipython完成的编辑数据来源及结构本文所分析的数据是通过爬虫抓取的微博数据。选取新浪微博为数据平台，选取我国34个省的旅游政务...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。