python 判断某一句话是否在文本里,检查文本是否是句子?

所以我有一个刮刀,可以得到文章。然而,它并不总是能正常工作。我想在它不工作的时候更好地检查。例如,下面是我想让它刮的东西:Hello. This is a sequence of sentences that are put together. They don't have to follow this exact format, but something very close to this would be nice! Just basically stuff like this put together with the occasional weird formatting, which depends on what is scraped.

但很明显,我得到的信息可能不是:REGISTER | LOGIN | LOGOUT | Sign in to your account Forgot your password? {* #signInForm *}....

有没有python库可以检查字符串的一般格式?基本上,我在抓取文章,想看看被刮的文本是否是article-y。如果没有python库,最好的方法是某种regex匹配吗?这有可能做得相当好吗?在

任何帮助都将不胜感激,谢谢!!在

[edit]如果您投票决定结束,您介意留下一个关于原因的评论吗?原因是:NLP没有堆栈交换。因此,我还能在哪里问这个问题呢?谢谢。在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值