前言
我知道这个标题很唬人,但容我解释两点:首先我是说【数据处理】,不是数据分析更不是数据挖掘,只涉及从获得数据到开始正式分析之前的准备工作,也称【数据清洗】;其次,这只是【比较】,只是比较粗浅的罗列而已,整理一下我最近俩月驳杂的学习内容。
首先介绍使用版本与工具:Python:Python 3.6.6(Anaconda custom)/Jupyter Notebook、pandas、numpy
Excel:Office 365(2016)
SPSS:Statistics 25
SQL:MySQL 8.0/Navicat Premium 12.1
然后提一下背景知识:列(Python/Excel)=字段(SQL)=变量(SPSS)
行(Python/Excel)=记录(SQL)=个案(SPSS)
OK,LET'S DANCE.
Python本地数据
这里说的是读取为pandas的数据框DataFrame格式。首先需要导入pandas和numpy:
import numpy as np
import pandas as pd
一般使用pandas读取表格型数据。如果是本地文件,如csv或xlsx,则常用两个函数:
df=pd.read_csv('路径')
df=pd.read_excel('路径')
这里的路径需要使用反斜杠\,但