python的numpy库和pandas库基础学习知识

本文介绍了如何使用Python的numpy和pandas库进行文件编码检测、数据预处理(如数据框类型查看、数据透视表、drop函数应用)、图形绘制(中文显示),以及数据清洗(空值检查)和地理位置数据的处理(计算经纬度距离)。
摘要由CSDN通过智能技术生成

python的numpy库和pandas库基础学习知识

检测txt文件编码

import chardet
f3 = open(file="word2.txt",mode='rb') # 以二进制模式读取文件
data = f3.read() # 获取文件内容
f3.close() # 关闭文件
result = chardet.detect(data) # 检测文件内容
print(result) #

 {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

查看数据框类型

data.info()

数据透视表

user_month_count = new1.pivot_table(
    index = 'date',
    values = 'id',
    aggfunc = 'count',
    columns=['url'],
    fill_value=0,margins=True).fillna(0) ##列为日期,行是每个url,计算方式是记数有多少个id.

drop用法

下面展示一些 内联代码片

new1.drop(['Unnamed: 0'],axis=1,inplace=True)  ##去除Unnamed: 0行
train=ziying.dropna(subset=['avg_cups_agg']) ##去除avg_cups_agg所在的空行

画图时中文显示

plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']

lambda用法

data['xiaoyu500_count'] = data[['top1_dis', 'top2_dis', 'top3_dis', 'top4_dis', 'top5_dis']].apply(lambda row: sum(row <= 500), axis=1)

检查空值

data[['col']].isna().sum()
data[data.isna().any(axis=1)]  ##去除空值所在的行
// An highlighted block
shop_id    0

批量读取文件

import os
os.listdir(diectory) ##diectory为你文件夹的路径

根据经纬度计算距离

import geodesic from geopy.distance  ##导入库
distance=geodesic((row['lat'], row['lng']),(row['location_lat'], row['location_lng'])).m   ##两个位置的经纬度
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值