文本分类学习(一):开篇

今天开始,就要认真开始对待文本分类,在此之前只是稀疏的看过一些博客,了解一下贝叶斯分类。之所以要学习文本分类,是因为我做的毕业设计就是关于文本分类和机器学习的。突然感觉到时间不太够用了,而摆在我面前的实际上是一个很浩大的工程,不得不抓紧时间开始研究。至于为什么毕业设计会选择文本分类算法,因为觉得现在机器学习很热门,不会点都不好意思说自己是搞计算机科学的,其次我想把自己的毕业设计可以和工作结合,并充分发挥作用。

很庆幸自己搞过算法,高中数学还算不错,这些是学习文本分类的优势吧。如果可以我想把自己的学习和研究成果发表成论文,并且将代码在Git上开源。

 

其实自己到目前为止对文本分类的概率依然不是很清晰,只是大概知道这么些东西:

  

  1.首先待分类的文本我们需要把它变成计算机能认识的东西,计算机能认识啥?(从底层来说只认识0和1)我们当然不能把一大段文字交给计算机。文本是由一些列词组成的,于是我们可以把文本变成一系列词的组合,在此之间需要对文本进行分词 ,(这和我之前学习的搜索引擎的分词是一样的,可以直接拿来用了,O(∩_∩)O哈哈~)。比如这篇文章进行分词之后:("今天","开始","就要".......)这就是词向量,也就是文本的特征向量。在这之后还需要对词进行加权重,这样可以突出某些词的重要性,在这篇文章中显然"文本","分类"要比"今天","开始"更能代表文章的含义。关于文档向量就不细说了,毕竟只是开篇~

 

      2.构造训练集,事先我们得准备好很多很多个已经分好类的文本组成训练集,当然对于所有的算法是训练集越大,分类的效果越好。

 

  3.选择分类算法,构造分类器。就我目前知道的分类器有很多,比如决策树,贝叶斯分类器,KNN分类,SVM支持向量机等等,还有adaboost增强训练算法。但是在网上,一些测试结果中都说SVM算法的效果是最好的,所以就先拿SVM开刀了,貌似SVM还是一个挺复杂的算法(难在它的数学知识,比如高维空间,核函数,很好奇是个什么东西)。

  

  4.分类待分类文本。

 

千里之行始于足下,同志们开始马不停蹄的探索和学习吧。

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值