python作为当前主流的语言之一,他的功能是非常强大的。不论是在游戏行业还是数据分析行业还是软件开发啥的好像都可以用python,但作为一个数据分析师,并不需要用到他的全部功能。
只是想要达到“能够用python完成数据分析工作”的效果来帮助公司的实习生,所以整理了这个随笔。
一、数据导入
数据的导入是进行数据分析的第一步骤,一般提取的数据由文本格式(txt)、表格格式(csv/excel)及数据库文件(dmp/直连)。
(1)导入csv
因为我个人习惯了r的相关数据结构和操作,所以我用pandas导入csv数据,可以直接导入DataFrame类型的数据。这种方法更接近R的操作方法,导入的数据类型也更便于操作。
# -*- coding: utf-8 -*-
import pandas as pd data=pd.read_csv(open('d:/data/datafile.csv')) print(data.head(10))
很简单,第一行读库,第二行导入,第三行查看样例数据。
(2)导入txt
这个我不常用。在网上找了一下:
1 data2 = open('E:\data\datafile.txt') 2 s=data2.read()
(3)连接数据库
大数据嘛,当然是连接数据库咯
#-*- coding:utf-8 -*- import numpy as np import pandas as pd import matplotlib.pylab as plt import mysql.connector conn = mysql.connector.connect(host='localhost