自然语言处理NLTK
文章平均质量分 69
go2coding
关注机器学习,人工智能
展开
-
自然语言处理NLTK(三):文本分类
如果要用简单的语言来总结自然语言处理的话,可以用分类来解释。但是道理太大,也很难把握方法的使用。用机器学习进行分类分类用什么用处呢?基本上到处都可以用到。比如新闻的推荐,最粗的一种做法为:把新闻分为几种类型,体育类,科技类,读书类,相当于给新闻打上标签,如果一个用户经常阅读科技类的新闻,就可以把科技类的新闻推荐给该用户。用机器学习的方法对数据进行分类,有监督的学习方式,通常是以下步骤:收集相关的大量数据选取进行分类的特征对数据进行训练用训练的结果进行测试人名的性别分类如原创 2022-04-09 08:28:06 · 2920 阅读 · 0 评论 -
自然语言处理NLTK(二):文本处理
NLP流程对于自然语言的处理,对问题的预处理可以用下图来表示,不管文本从哪里来本地或者网络,清理html,分词,取得vocab。清理html在原书中提供了一个nltk.clean_html()函数,但是这个函数已经过时了,现在我们会使用BeautifulSoup库来代替。例如,课后习题第20题:编写代码来访问喜爱的网页,并从中提取一些文字。例如,访问一个天气网,提取你所在的城市的温度。现在我们以上海市为例,获取上海当天的温度情况。代码如下:from bs4 import BeautifulSou原创 2022-04-08 11:43:19 · 646 阅读 · 0 评论 -
自然语言处理NLTK(一):NLTK和语料库
对于文本的研究,对于语言主要是中文,英文的研究反而会少了很多,主要还是因为应用的问题,而现在对于海外的产品来说,英文的语言处理,会越来越显得重要,其实对英文语言处理资料会比中文的来得多,来得全,很多中文研究的方法是借鉴了英文处理的思想。NLTK是python中研究自然语言的非常优秀的第三方库,里面集中了非常多的自然语言处理方式的算法,不需要自己去编写算法,可以让我们更多的去关系应用本身。NLTK的安装NLTK的安装,跟python安装第三方包并没有太多的区别。pip install nltk对于原创 2022-04-08 09:40:15 · 7957 阅读 · 0 评论