【Python 数据科学】处理文本 str

>>>import pandas as pd
>>>position=pd.read_csv('DataAnalyst.csv',encoding='gbk')
>>>position.head()
citycompanyFullNamecompanyIdcompanyLabelListcompanyShortNamecompanySizebusinessZonesfirstTypesecondTypeeducationindustryFieldpositionIdpositionAdvantagepositionNamepositionLablesbottomtopavgworkYear
0上海纽海信息技术(上海)有限公司8581['技能培训', '节日礼物', '带薪年假', '岗位晋升']1号店2000人以上['张江']技术数据开发硕士移动互联网2537336知名平台数据分析师['分析师', '数据分析', '数据挖掘', '数据']798.0应届毕业生
1上海上海点荣金融信息服务有限责任公司23177['节日礼物', '带薪年假', '岗位晋升', '扁平管理']点融网500-2000人['五里桥', '打浦桥', '制造局路']技术数据开发本科金融2427485挑战机会,团队好,与大牛合作,工作环境好数据分析师-CR2017-SH2909['分析师', '数据分析', '数据挖掘', '数据']101512.5应届毕业生
2上海上海晶樵网络信息技术有限公司57561['技能培训', '绩效奖金', '岗位晋升', '管理规范']SPD50-150人['打浦桥']设计数据分析本科移动互联网2511252时间自由,领导nic数据分析师['分析师', '数据分析', '数据']465.0应届毕业生
3上海杭州数云信息技术有限公司上海分公司7502['绩效奖金', '股票期权', '五险一金', '通讯津贴']数云150-500人['龙华', '上海体育场', '万体馆']市场与销售数据分析本科企业服务,数据服务2427530五险一金 绩效奖金 带薪年假 节日福利大数据业务分析师【数云校招】['商业', '分析师', '大数据', '数据']687.0应届毕业生
4上海上海银基富力信息技术有限公司130876['年底双薪', '通讯津贴', '定期体检', '绩效奖金']银基富力15-50人['上海影城', '新华路', '虹桥']技术软件开发本科其他2245819在大牛下指导BI开发/数据分析师['分析师', '数据分析', '数据', 'BI']232.5应届毕业生
>>>position.positionLables
0                           ['分析师', '数据分析', '数据挖掘', '数据']
1                           ['分析师', '数据分析', '数据挖掘', '数据']
2                                   ['分析师', '数据分析', '数据']
3                              ['商业', '分析师', '大数据', '数据']
4                             ['分析师', '数据分析', '数据', 'BI']
                              ...                        
6818                                  ['分析师', '金融', '证券']
6819    ['项目管理', '专员', '助理', '实习生', '风控', '采购', '分析师',...
6820    ['分析师', '职业培训', '教育', '培训', '金融', '证券', '股票', ...
6821    ['实习生', '主管', '经理', '顾问', '销售', '客户代表', '分析师',...
6822                                        ['分析师', '金融']
Name: positionLables, Length: 6823, dtype: object

str方法针对值里面的字符串

##查找目标在字符串的位置
#>>>position.positionLables.str.find('分析师')
##计算目标在字符串中出现的次数
>>>position.positionLables.str.count("'")

0        8.0
1        8.0
2        6.0
3        8.0
4        8.0
        ... 
6818     6.0
6819    20.0
6820    22.0
6821    26.0
6822     4.0
Name: positionLables, Length: 6823, dtype: float64
#字符串切片去掉首尾
>>>position.positionLables.str[1:-1]
0                             '分析师', '数据分析', '数据挖掘', '数据'
1                             '分析师', '数据分析', '数据挖掘', '数据'
2                                     '分析师', '数据分析', '数据'
3                                '商业', '分析师', '大数据', '数据'
4                               '分析师', '数据分析', '数据', 'BI'
                              ...                        
6818                                    '分析师', '金融', '证券'
6819    '项目管理', '专员', '助理', '实习生', '风控', '采购', '分析师', ...
6820    '分析师', '职业培训', '教育', '培训', '金融', '证券', '股票', '...
6821    '实习生', '主管', '经理', '顾问', '销售', '客户代表', '分析师', ...
6822                                          '分析师', '金融'
Name: positionLables, Length: 6823, dtype: object
#使用替换函数需要再来一次str,才能调用针对字符串的replace
>>>position.positionLables.str[1:-1].str.replace("'","")
0                                     分析师, 数据分析, 数据挖掘, 数据
1                                     分析师, 数据分析, 数据挖掘, 数据
2                                           分析师, 数据分析, 数据
3                                        商业, 分析师, 大数据, 数据
4                                       分析师, 数据分析, 数据, BI
                              ...                        
6818                                          分析师, 金融, 证券
6819           项目管理, 专员, 助理, 实习生, 风控, 采购, 分析师, 培训, 金融, 证券
6820        分析师, 职业培训, 教育, 培训, 金融, 证券, 股票, 交易, 讲师, 中介, 地产
6821    实习生, 主管, 经理, 顾问, 销售, 客户代表, 分析师, 职业培训, 教育, 培训, ...
6822                                              分析师, 金融
Name: positionLables, Length: 6823, dtype: object
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值