朴素贝叶斯分类器就是数数

本篇文本是传统机器学习分类方法的最后一篇。从打算开始写这一系列文本到今天差不多3个月的时间,其间也在关注博客的阅读量,发现反倒是Linux系统编程的文本阅读量更大,大概是分类博客的10倍。从这个侧面也大概看出当前从业者或者说大部分速成班都在干什么。最近也看到了人工智能领域的一些公司裁员。庆幸自己是从单片机误打误撞进来的。写下面的话,并不想发牢骚,只是陈述事实而已。从高考谈起。有的时候,当你太在乎一件事的时候,或者一件事从一开始就各种障碍的时候,一旦你的心理被击垮,后边再怎么努力都无济于事。就像高中数学一样。从小学到初中,我的数学这一科虽说不是最后,但相比自己的其他科目也还算可以的。当年我的初中有名的差校,当然小升初那年崇文区破天荒不需要考试,而是交1.5万后,电脑派位。要说一下的是,我的成绩并不差,但那时就很有想法(一直以来都是),决定就近分配,而不想让父母出这个钱。当时的想法是,金子到哪儿都发光。果然,我的初中生活,是活到现在为止,最舒服的一段时间之一。学校没有强迫性的自习时间,这反倒给了我自由发挥的机会。也当了人生第一个小管理员,物理课代表(我们初中的老师反倒是我经历所有学校中最朴实的,或许是因为大家都是没交那1.5万的,所以老师也没那机会)。即将毕业的模考最好成绩达到了年级第9。顺理成章,我考到了区重点最好的一个高中。啊,怎么说了这么多,嗯,反正也没人看。至今记得,刚开始学习集合的时候,单元测验,考了90多分,居然不是第一,心里不免有些落差。之后就开始恶性循环,最差成绩数学拿过6分。不过有一点我至今骄傲,我从来没想过要为高考而高考,所以我依然承担了宣传委员的工作,那时候家在五棵松,学校在夕照寺,每天到家第一件事就是睡一小时,睡醒就9-10点了,学习两个小时。高中第一年记得一共是9个科目,期末考试没一科我都及格了,有的同学只学考试的那几科。我的历史,物理,化学,生物的会考成绩是优。就是从高中的时候,养成了不想急功近利的习惯。即将毕业的时候,我的数学差到了极点,三年,两任数学老师,我在第一任老太太的眼里,就是个渣,当然她眼里没好学生。第二任年轻男老师,他也顾不上我这种差生,我也觉得他没啥水平(这是后来的想法)。还有3-4个月高考,我自己决定放弃所有数学大题,只做《优化设计》的选择天空。高考数学成绩是75,理综成绩早就忘了,数学,语文,英语记得清楚,分别是75,89,89。高考的数学卷子,我也只是做了选择填空,没想到的是,居然全蒙对了。距离一本线差了10多分。如果当年不是因为数学,我就成为兽医了。哈哈哈。到了大学,我主动要求当了高数课代表,本科是我的第2个过得舒服得阶段。学到级数之前我们第一次考试,拿了电信系里第一。后边的每门数学课,除了线性代数,都是80-90。我真的天真的以为人生后边没有什么坎坷了。好时间没多久,09年开始经济危机,我投出的简历,全部石沉大海。我现在依然记得我那时参加过的所有面试的公司,利德华福(电气),华环(光通信),大唐电信(测试工程师),大唐电信是我明确要求我要做技术,利德华福是恐怕是有比我条件好的吧,华环是因为想要签三方,好得到政府的好处。被迫走了单片机的路,因为满大街都是招单片机。在实验室做了3个月实验以后,拿着我的毕业设计找到了第1份工作。这一段让我从此没有安全感,也让我不再怕什么经济危机裁员。再说说我为什么来到自然语言处理。工作一年后,直接上司做私活,被领导发现,他被辞退了。我的工资从到手1750一下涨到4000多,甚至暗示我是不是想当领导。而我知道,我之所以能清楚所有各型设备的监控程序,跟上司,还有我的第1任师父是离不开的。那时,我师父已经在几个月前离职,去做嵌入式Linux,我不想欠谁的,所以离职到公司旁边的一个做医疗器械的公司。到了新公司,发现做DSP的都是研究生,而我一直也没死心,于是辞职准备了一年,12年顺利回到母校,继续读研。现在想想那时候真是胆子大呀。选导师,按理说我又是本校,应该是最好的老师吧,你们错了。当然我要强调,其实我的老师是最好的老师,他教我的是怎么做人。也就是因为他是这样的凭良心的老师,所以很多同学不选。我的老师从来不会去拍脑袋骗钱,从来不贪图名利,所以我一直以来,也是以他为坐标,争取在这个浮躁的环境,寻找一条清净的路。我老师手里没有项目,所以我跟另外一个同门被借调到计算机学院,进入NLP。没想到的是15年毕业的时候,NLP工作反倒比通信的工作好找。现在的我,还是想继续我的平凡的工作,虽然能力上不如别人,但是每天做一点想做的事,不一定对业务有太大的效果,也不一定是能挣多少钱,也不一定是最流行的方法,做一点事,心安理得就可以了。

好了,开始说朴素贝叶斯。朴素贝叶斯是我在某电商公司做商品分类的算法。其实我要说,商品分类是对性能要求较为严格的。80的准确率根本就是不可以的,要求尽量达到100%。它的优点是,原理清晰,查错方便,适合多类目分类。当然在商品分类上,做到最后是要通过实体识别来进一步提高准确率的,说白了,你得让机器避开干扰物品词,让它知道一个标题所描述的具体事物是什么。最近开始在翻《信息检索导论》,当然这本书一直立在书柜里。在看到分类相关章节的时候,很多想法,跟我到目前为止总结出来的心得不谋而合。分类问题,第一步是要问有多少数据,有多少标注准确的数据。第二个核心思想,针对特定领域的特征词筛选,一定比改进算法有效。第三,对于没有训练集的情况,怎样从无到有。另外,我的心得,所有模型的效果,在相同质量语料的前提下,工业上不会有太大差别。

在这里插入图片描述
修正一下,预测表达式中的似然条件概率应该是P(wi|c)
在这里插入图片描述
修正一下,预测表达式中的似然条件概率应该是P(wi|c)
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值