YS_20190807_Python_数据分析

导入文件格式类型

read_table:可以快速地读取大数据、海量数据, 人工智能的数据集

pd = read_table('F:\PandasFiles\d2.txt')
print(pd)

read_excel:指定读取excel类型的数据

pd2 = read_excel('F:\PandasFiles\d3.xls')
print(pd2)

在以上2个方法里面。可以通过names属性给列起名称,方便数据的读取!通过sep分隔数据!

read_csv:导入CSV文件

pd1 = read_csv('F:\PandasFiles\d1.csv')
print(pd1)

read_table/excel/csv 等,返回值全部是DataFrame类型。
处理数据的编码格式的方法 :

  1. 通过EditsPlus 或者 UE开发工具可以进行编码的切换!—开发天天使用
  2. 对于大数据的数据集不能利用转码的代码机制去直接转码,这样导致服务器、数据等发生异常情况!----建议使用第三方工具直接操作数据集

导出文件

to_csv:创建一个列表数据。将列表数据导出为文本类型、csv类型。不仅可以自动创建数据文件,也可以将手动创建的文件通过此方法存放到文件里面。数据存放、数据维护简单。

df =DataFrame({
      'name':['赵雅芝','许仙','fahai','jinlian','ximenqing'],
      'score':[50,200,251,500,502]
      })
print('saidgiwah:',df)
df.to_csv('F:\PandasFiles\hello.csv')
df.to_csv('F:\PandasFiles\df.csv')
#df.to_csv('d:/pythondata01/hello.txt') #导出txt
#df.to_csv('d:/pythondata01/hello.xls') #导出xls
#df.to_csv('d:/pythondata01/hello.xlsx') #导出xlsx

注意:

  1. 导出文件的格式不受限制,可以通过to_csv进行导出 不同文件类型。
  2. 通过csv可以导出任意类型的文件。所以csv分析数据首选

去除重复数据

#除去重复数据
df10=pd.read_csv('F:/PandasFiles/data.csv')
newdata=df10.drop_duplicates()#此方法可以除去重复数据
print('新数据:',newdata)

数据抽取

数据抽取:通过slice方法 ,但是数据抽取之前必须将数据转化为str

from pandas import read_csv
from pandas import DataFrame

df11 = read_csv('F:/PandasFiles/d4.6/data.csv')
df11['tel'] = df11['tel'].astype(str);
print(df11['tel'].astype(str))
df11['tel']=df11['tel'].astype(str)#表示的将数据转化为字符串   ----电话号码、身份证等都是字符串组成,而不是整数、
#数据截取
#运营商
yys = df11['tel'].str.slice(0, 3);
#地区
areas = df11['tel'].str.slice(3, 7);
#号码段
nums = df11['tel'].str.slice(7, 11);
#空格值的处理
newName = df11['tel'].str.strip();  #.str表示的是将数据转化为字符串在去去除空格!

数据拆分

数据拆分

cf = df11['tel'].str.split('',2,True)
cf1 = df11['tel'].str.split('',2,False)

在这里插入图片描述
在这里插入图片描述
参数说明: df11[‘tel’]指的是拆分哪个列名称,str.slpit () 表示按照字符串拆分。所有的拆分都是按照字符串,
(’ ’ 1,True)1表示列数量 True=DataFrame。

数据记录抽取
在这里插入图片描述
在这里插入图片描述
(以上图片取自老师PPT)

数据随机抽样:从数据中按照一定的行数或者比例抽取数据。

#随机抽样
df1 =DataFrame(np.random.randint(0,100,4))
df1.loc[0:1]

在这里插入图片描述

数据合并

数据合并:concat () ,将两个结构相同的数据框,合并成一个数据框。

from pandas import read_csv
from pandas import DataFrame
import pandas as pd

#数据合并
df12 = read_csv('F:\PandasFiles\d4.10/data1.csv')
df13 = read_csv('F:\PandasFiles\d4.10/data2.csv')
df14 = read_csv('F:\PandasFiles\d4.10/data3.csv')
df15 = pd.concat([df12,df13,df14])
print(df15)

在这里插入图片描述
总结:其实数据的合并就是将所有数据存放到一个列表/集合框架里面。去操作数据。数据合并的核心思想 :将大数据划分为小元素—小元素划分为值

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值