dataframe pandas 新建_使用特定模式从txt文件创建Pandas DataFrame

假设您有以下DF:

In [73]: df

Out[73]:

text

0                                       Alabama[edit]

1                       Auburn (Auburn University)[1]

2              Florence (University of North Alabama)

3     Jacksonville (Jacksonville State University)[2]

4          Livingston (University of West Alabama)[2]

5            Montevallo (University of Montevallo)[2]

6                           Troy (Troy University)[2]

7   Tuscaloosa (University of Alabama, Stillman Co...

8                   Tuskegee (Tuskegee University)[5]

9                                        Alaska[edit]

10      Fairbanks (University of Alaska Fairbanks)[2]

11                                      Arizona[edit]

12         Flagstaff (Northern Arizona University)[6]

13                   Tempe (Arizona State University)

14                     Tucson (University of Arizona)

15                                     Arkansas[edit]

In [117]: df['State'] = df.loc[df.text.str.contains('[edit]', regex=False), 'text'].str.extract(r'(.*?)\[edit\]', expand=False)

In [118]: df['Region Name'] = df.loc[df.State.isnull(), 'text'].str.extract(r'(.*?)\s*[\(\[]+.*[\n]*', expand=False)

In [120]: df.State = df.State.ffill()

In [121]: df

Out[121]:

text     State   Region Name

0                                       Alabama[edit]   Alabama           NaN

1                       Auburn (Auburn University)[1]   Alabama        Auburn

2              Florence (University of North Alabama)   Alabama      Florence

3     Jacksonville (Jacksonville State University)[2]   Alabama  Jacksonville

4          Livingston (University of West Alabama)[2]   Alabama    Livingston

5            Montevallo (University of Montevallo)[2]   Alabama    Montevallo

6                           Troy (Troy University)[2]   Alabama          Troy

7   Tuscaloosa (University of Alabama, Stillman Co...   Alabama    Tuscaloosa

8                   Tuskegee (Tuskegee University)[5]   Alabama      Tuskegee

9                                        Alaska[edit]    Alaska           NaN

10      Fairbanks (University of Alaska Fairbanks)[2]    Alaska     Fairbanks

11                                      Arizona[edit]   Arizona           NaN

12         Flagstaff (Northern Arizona University)[6]   Arizona     Flagstaff

13                   Tempe (Arizona State University)   Arizona         Tempe

14                     Tucson (University of Arizona)   Arizona        Tucson

15                                     Arkansas[edit]  Arkansas           NaN

In [122]: df = df.dropna()

In [123]: df

Out[123]:

text    State   Region Name

1                       Auburn (Auburn University)[1]  Alabama        Auburn

2              Florence (University of North Alabama)  Alabama      Florence

3     Jacksonville (Jacksonville State University)[2]  Alabama  Jacksonville

4          Livingston (University of West Alabama)[2]  Alabama    Livingston

5            Montevallo (University of Montevallo)[2]  Alabama    Montevallo

6                           Troy (Troy University)[2]  Alabama          Troy

7   Tuscaloosa (University of Alabama, Stillman Co...  Alabama    Tuscaloosa

8                   Tuskegee (Tuskegee University)[5]  Alabama      Tuskegee

10      Fairbanks (University of Alaska Fairbanks)[2]   Alaska     Fairbanks

12         Flagstaff (Northern Arizona University)[6]  Arizona     Flagstaff

13                   Tempe (Arizona State University)  Arizona         Tempe

14                     Tucson (University of Arizona)  Arizona        Tucson

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值