python数据抽取框架_python数据分析3:数据抽取

本文介绍了如何使用Python的Pandas库进行数据抽取。通过实例展示了如何从网页抓取NBA球员薪资数据并保存为Excel文件,以及如何利用Pandas进行数据抽取,包括抽取单行、多行、连续行、指定列、指定条件的数据,并介绍了增加和修改数据的方法。
摘要由CSDN通过智能技术生成

1.使用Pandas获取网页中的表格数据并转化为EXCEL电子表格

# 导入NBA球员的薪资数据import pandas as pd

df = pd.DataFrame()

url_list = ['http://www.espn.com/nba/salaries/_/seasontype/4']

for i in range(2, 4):

url = 'http://www.espn.com/nba/salaries/_/page/%s/seasontype/4' % i

url_list.append(url)

for url in url_list:

df = df.append(pd.read_html(url), ignore_index=True)

df = df[[x.startswith('$') for x in df[3]]]

# print(df)

df.to_excel('NBA.xlsx',header=['RK','NAME','TEAM','SALARY'],index=False)

2.数据抽取

# loc属性:以列名和行名作为参数,当只有一个参数时,默认是行名,即抽取整行数据,包括所有列,如df.loc['a']

# iloc属性:以行和列位置索引(即0,1,2...)作为参数,0表示第一行,1表示第二行,以此类推。当只有一个参数时,默认是行索引,即抽取整行数据,包括所有列,如df.iloc[0]

# 抽取一行考试成绩import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

print(df.loc['明日'])

print(df.iloc[0])

语文    110.0

数学    105.0

英语    99.0

Name: 明日, dtype: float64

【抽取多行数据】import pandas as pd

pd.set_option('display.unicode.east_asian_width',True)

data = [[110, 105, 99], [105, 88, 115], [109, 120, 130], [112, 115]]

name = ['明日', '七月流火', '高袁圆', '二月二']

columns = ['语文', '数学', '英语']

df = pd.DataFrame(data=data, index=name, columns=columns)

p

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值