数据分析初学--自行设置数据

最新推荐文章于 2021-07-08 14:52:20 发布

Booting-O

最新推荐文章于 2021-07-08 14:52:20 发布

阅读量393

点赞数

文章标签： python 大数据 numpy 数据分析

本文链接：https://blog.csdn.net/Google_eason/article/details/105466008

版权

探索虚拟姓名数据

raw_data_1 = {
	'subject_id': ['1', '2', '3', '4', '5'],
	'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
	'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}
raw_data_2 = {
	'subject_id': ['4', '5', '6', '7', '8'],
	'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'],
	'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}
raw_data_3 = {
	'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
	'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}

首先导入Pandas，Numpy库

import pandas as pd
import numpy as np

（1）. 创建DataFrame；

raw_data_1 = {
        'subject_id': ['1', '2', '3', '4', '5'],
        'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 
        'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

raw_data_2 = {
        'subject_id': ['4', '5', '6', '7', '8'],
        'first_name': ['Billy', 'Brian', 'Bran', 'Bryce', 'Betty'], 
        'last_name': ['Bonder', 'Black', 'Balwner', 'Brice', 'Btisan']}

raw_data_3 = {
        'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
        'test_id': [51, 15, 15, 61, 16, 14, 15, 1, 61, 16]}

（2）. 将上述的DataFrame分别命名为data1, data2, data3；

data1 = pd.DataFrame(raw_data_1)
data2 = pd.DataFrame(raw_data_2)
data3 = pd.DataFrame(raw_data_3)

（3）. 将data1和data2两个数据框按照行的维度进行合并，命名为all_data；

all_data = pd.concat([data1,data2],axis=0)

（4）. 将data1和data2两个数据框按照列的维度进行合并，命名为all_data_col；

all_data_col = pd.concat([data1,data2],axis=1)

（5）. 打印data3；

data3

（6）. 按照subject_id的值对all_data和data3作合并；

pd.merge(all_data,data3,on='subject_id')

（7）. 对data1和data2按照subject_id作连接；

pd.merge(data1,data2,on='subject_id',how='inner')

（8）. 找到data1和data2合并之后的所有匹配结果。

pd.merge(data1,data2,on='subject_id',how='outer')

Booting-O

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据分析初学--自行设置数据

探索虚拟姓名数据raw_data_1 = { 'subject_id': ['1', '2', '3', '4', '5'], 'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'], 'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}raw_data...
复制链接

扫一扫