python的numpy库和pandas库基础学习知识
检测txt文件编码
import chardet
f3 = open(file="word2.txt",mode='rb') # 以二进制模式读取文件
data = f3.read() # 获取文件内容
f3.close() # 关闭文件
result = chardet.detect(data) # 检测文件内容
print(result) #
{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}
查看数据框类型
data.info()
数据透视表
user_month_count = new1.pivot_table(
index = 'date',
values = 'id',
aggfunc = 'count',
columns=['url'],
fill_value=0,margins=True).fillna(0) ##列为日期,行是每个url,计算方式是记数有多少个id.
drop用法
下面展示一些 内联代码片
。
new1.drop(['Unnamed: 0'],axis=1,inplace=True) ##去除Unnamed: 0行
train=ziying.dropna(subset=['avg_cups_agg']) ##去除avg_cups_agg所在的空行
画图时中文显示
plt.rcParams['font.family'] = ['sans-serif']
plt.rcParams['font.sans-serif'] = ['SimHei']
lambda用法
data['xiaoyu500_count'] = data[['top1_dis', 'top2_dis', 'top3_dis', 'top4_dis', 'top5_dis']].apply(lambda row: sum(row <= 500), axis=1)
检查空值
data[['col']].isna().sum()
data[data.isna().any(axis=1)] ##去除空值所在的行
// An highlighted block
shop_id 0
批量读取文件
import os
os.listdir(diectory) ##diectory为你文件夹的路径
根据经纬度计算距离
import geodesic from geopy.distance ##导入库
distance=geodesic((row['lat'], row['lng']),(row['location_lat'], row['location_lng'])).m ##两个位置的经纬度