纽约时报的内容网上找了半天没有一模一样的,不过有一个意思至少还过得去,在这里附上链接:
https://www.huffingtonpost.com/2015/05/18/obama-military-equipment-police_n_7304504.html
这个网页上有一个违法字符ñ
,直接改成n
就好了,要不然在读入的时候可能会报错,另外最好把该网站的单双引号都用英文再敲一遍。
然后就是因为版本的问题,可能会遇到下面这个报错
NotImplementedError: Use label() to access a node label.
参考网页:https://blog.csdn.net/LIUSHAO123456789/article/details/79473514
将代码的这一部分改成如下:
no_of_ners = len([chunk for chunk in ners if hasattr(chunk, 'label')])
大概是取消了node,而变成了label的缘故吧。
直接打一段长文字,真的恶心,这里放上找到的该书英文pdf链接
https://universalflowuniversity.com/Books/Computer%20Programming/Machine%20Learning%20and%20Deep%20Learning/NLTK%20Essentials_%20Build%20cool%20NLP%20and%20machine%20learning%20applications%20using%20NLTK%20and%20other%20Python%20libraries.pdf
注意在sklearn的样例代码中,norm是l2
,不是12
。然后有一个很明显的打印多了一个count。
这个样例测试完之后也可以考虑自己找一些新闻,或者试试中文的也行,看编写的情况。