Python做数据匹配
本文仅仅记录根据需求所需要的用法,对pandas并无详细的介绍。
详细的资料可以查阅pandas中文文档
一、需要满足的需求:将两个数据库进行内联
二、需要用到的包:pandas、fuzzywuzzy(进行字符串的模糊匹配)
安装非常容易pip一下就完事了
Pandas用于数据库的处理等都非常的方便
通常的用法是
pandas将数据库数据封装进DataFrame对象
pandas
#导入pandas包的标准用法
import pandas as pd
pandas的具体函数使用:
#新建DataFrame
df_empty=pd.DataFrame(columns=[...],index=[...])
#从文件中读取数据
df_empty=pd.read_csv('xx.csv')
df_empty=pd.read_stata('xx.dta')
df_empty=pd.read_txt('xx.txt')
#将数据导入文件中
df.to_csv('xx.csv')
df.to_stata('xx.dta')
记录一下pandas的DataFrame做数据清洗的操作
df.dropna() #去除所有存在空值的行得到子DF
df.dropna(how = 'all') #去除全为空值的行
df.dropna(axis = 1,how = 'all') #去除全为空值的列
df.dropna(thresh = 3) #去除空值数大于3的行
df.dropna(subset = ['xx']) #去除指定列存在空值的