python对excel筛选提取文本中数字_使用Python&NLP,如何从具有大量自由文本的Excel列中提取特定的文本字符串和字符串前面的相应数字?...

我对Python比较陌生,对NLP(和nltk)也很陌生,我在网上搜索过指导,但没有找到完整的解决方案。不幸的是,我一直在玩的稀疏代码是在另一个网络上,但我包括一个示例电子表格。我想得到建议的简单英语步骤(比我下面有更详细的),这样我可以首先尝试自己用python3编写脚本。除非你能简单地帮助你编写脚本。。。那样的话,谢谢你。在

问题:一个健壮的电子表格中有几列是非常无结构的,其中有500-5000个英文字符可以讲述一个故事。我需要通过提取可量化的数据使其更具结构化。我需要:

1)在用户提供的非结构化自由文本列中搜索字符串(用户输入列标题)(我认为我做得对)

2)将该字符串作为Excel中新的列标题(我想我做得对)

3)抓住绳子前的号码(这就是我卡住的地方)。正如您在表格中看到的,有时数字和文本之间没有空格,当然,有时也会出现拼写错误)

4)将该数字放入同一行的新列中(尚未进入此步骤)

我将不得不对多个关键字重复这样做,但我相信,我可以用一个循环或其他东西来解决这个问题。非常感谢您的时间和专业知识。。。在

E9q4Z.jpg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值