YS_20190807_Python_数据分析

最新推荐文章于 2021-03-01 13:33:23 发布

於斯暮尔

最新推荐文章于 2021-03-01 13:33:23 发布

阅读量144

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/weixin_43190812/article/details/98769462

版权

Python 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

Python——数据分析

导入文件格式类型

read_table：可以快速地读取大数据、海量数据，人工智能的数据集

pd = read_table('F:\PandasFiles\d2.txt')
print(pd)

read_excel：指定读取excel类型的数据

pd2 = read_excel('F:\PandasFiles\d3.xls')
print(pd2)

在以上2个方法里面。可以通过names属性给列起名称，方便数据的读取！通过sep分隔数据！

read_csv：导入CSV文件

pd1 = read_csv('F:\PandasFiles\d1.csv')
print(pd1)

read_table/excel/csv 等，返回值全部是DataFrame类型。
处理数据的编码格式的方法：

通过EditsPlus 或者 UE开发工具可以进行编码的切换！—开发天天使用
对于大数据的数据集不能利用转码的代码机制去直接转码，这样导致服务器、数据等发生异常情况！----建议使用第三方工具直接操作数据集

导出文件

to_csv：创建一个列表数据。将列表数据导出为文本类型、csv类型。不仅可以自动创建数据文件，也可以将手动创建的文件通过此方法存放到文件里面。数据存放、数据维护简单。

df =DataFrame({
      'name':['赵雅芝','许仙','fahai','jinlian','ximenqing'],
      'score':[50,200,251,500,502]
      })
print('saidgiwah:',df)
df.to_csv('F:\PandasFiles\hello.csv')
df.to_csv('F:\PandasFiles\df.csv')
#df.to_csv('d:/pythondata01/hello.txt') #导出txt
#df.to_csv('d:/pythondata01/hello.xls') #导出xls
#df.to_csv('d:/pythondata01/hello.xlsx') #导出xlsx

注意：

导出文件的格式不受限制，可以通过to_csv进行导出不同文件类型。
通过csv可以导出任意类型的文件。所以csv分析数据首选

去除重复数据：

#除去重复数据
df10=pd.read_csv('F:/PandasFiles/data.csv')
newdata=df10.drop_duplicates()#此方法可以除去重复数据
print('新数据:',newdata)

数据抽取

数据抽取：通过slice方法，但是数据抽取之前必须将数据转化为str

from pandas import read_csv
from pandas import DataFrame

df11 = read_csv('F:/PandasFiles/d4.6/data.csv')
df11['tel'] = df11['tel'].astype(str);
print(df11['tel'].astype(str))
df11['tel']=df11['tel'].astype(str)#表示的将数据转化为字符串   ----电话号码、身份证等都是字符串组成，而不是整数、
#数据截取
#运营商
yys = df11['tel'].str.slice(0, 3);
#地区
areas = df11['tel'].str.slice(3, 7);
#号码段
nums = df11['tel'].str.slice(7, 11);
#空格值的处理
newName = df11['tel'].str.strip();  #.str表示的是将数据转化为字符串在去去除空格！

数据拆分

数据拆分：

cf = df11['tel'].str.split('',2,True)
cf1 = df11['tel'].str.split('',2,False)

在这里插入图片描述

参数说明： df11[‘tel’]指的是拆分哪个列名称，str.slpit () 表示按照字符串拆分。所有的拆分都是按照字符串，
（’ ’ 1,True）1表示列数量 True=DataFrame。

数据记录抽取：
在这里插入图片描述

（以上图片取自老师PPT）

数据随机抽样：从数据中按照一定的行数或者比例抽取数据。

#随机抽样
df1 =DataFrame(np.random.randint(0,100,4))
df1.loc[0:1]

在这里插入图片描述

数据合并

数据合并：concat () ,将两个结构相同的数据框，合并成一个数据框。

from pandas import read_csv
from pandas import DataFrame
import pandas as pd

#数据合并
df12 = read_csv('F:\PandasFiles\d4.10/data1.csv')
df13 = read_csv('F:\PandasFiles\d4.10/data2.csv')
df14 = read_csv('F:\PandasFiles\d4.10/data3.csv')
df15 = pd.concat([df12,df13,df14])
print(df15)

在这里插入图片描述
总结：其实数据的合并就是将所有数据存放到一个列表/集合框架里面。去操作数据。数据合并的核心思想：将大数据划分为小元素—小元素划分为值

於斯暮尔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
YS_20190807_Python_数据分析

Python——数据分析导入文件格式类型导出文件数据抽取数据拆分数据合并导入文件格式类型read_table：可以快速地读取大数据、海量数据，人工智能的数据集pd = read_table('F:\PandasFiles\d2.txt')print(pd)read_excel：指定读取excel类型的数据pd2 = read_excel('F:\PandasFiles\d3.xl...
复制链接

扫一扫