求索---人工智能之新闻分类

前言:本文介绍的内容当前因本人在机器学习的算法方面技术有欠缺,故对于我来说当下还不能实现.所以此文章的目的主要是介绍前沿科技应用,及梳理自身的知识空白.

应用场景:
自主爬取互联网上各种文章,对其进行自动分类,如体育/财经/女性/等各种自定义分类.
公司应用场景
公司从事的是校园代收费业务,需要紧密关注国家相关政策.人工挑选费时费力.若能交由机器处理,将节约不少人力/时间成本.

技术实现分析:
简单的说该技术的可分为2步来实现:
一.编写爬虫程序,爬取目标网站全部新闻
# 目标网站:中华人民共和国教育部
起始页:http://www.moe.edu.cn/was5/web/search?searchword=%27%E4%BB%A3%E6%94%B6%E8%B4%B9%27&btn_search=&channelid=255182
爬虫过程略.
二.使用机器学习算法对爬取的文章进行分类
机器是如何像人类一样,能够自主的识别文章内容,并把相关文章分到同一类别的呢?
自计算机出现,在很多事情上都比人还好,既然如此,机器能不能懂得自然语言呢?早期的研究集中采用基于规则的方法,虽然解决了一些简单的问题,但是无法从根本上将自然语言理解实用化,直到20世纪70年代后,人们开始尝试用基于统计的方法进行自然语言处理,才有了突破性进展和实用的产品.

关于识别指定类别的文章,可以分为两步进行:

1.建模.首先,对样本文章提取关键词,(如想要识别关于世界杯的文章,先找几篇世界杯文章,将这些文章中'世界杯','足球'等词作为关键词),接着要计算文章长度,最终要求出关键词占文章长度的比值.暂且称为参照值.

2.匹配.以第一步计算出的比值作为参照.对所有爬取的文章进行第一步的建模取值,与参照值比较,在参照值附件范围内的即可被归类为目标文章.

知识储备不足,勉力写这些东西,希望自己能够越来越进步!

 

后记:人类发明的所有工具,都可用'人体的延伸'这个概念来理解.例如挖掘机,就是人手的延伸,增强了手的能力.望远镜,是眼睛的延伸,加强了视力,计算机的出现,则可以看做是人脑的延伸,加强了人体的计算能力.目前人工智能的大潮来临,人工智能可以说是人很多方面的延伸.各种文字,图像识别是眼睛的延伸,语音识别是耳朵的延伸,自动驾驶是人双脚的延伸,金融业是人脑的延伸.等等,人工智能能应用领域正在不断扩展中.未来已来.

 

参考资料:

1.机器学习实现海量新闻自动分类

阿里云数加体验馆,有详细的教程,可以注册体验下.

2.机器学习知识体系

详细梳理了机器学习的知识框架,非常好的指引!

3.2017年度人工智能报告:7大行业应用,100个初创企业

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值