利用决策树对微信公众号文本进行分类

问题背景

公众平台的公众号每天都会发布大量文章,通过群发图文的形式向用户每天推送内容。由于公众号面向的用户群体、专注的领域不同,图文内容也差异很大。一些公众号主要发布时事政治内容,而另外一些公众号主要发布游戏的视频与周边等。识别公众号的内容对公众平台的运营与新场景应用发挥重要作用,其中对公众号文本的挖掘能力是一个基础能力。本次题目选择时尚类公众号的文章,关注化妆个护领域,要求根据给出的文章内容(已分词)识别出该文章是否向用户推荐化妆个护相关的商品。

知识背景:

  (一)、文本预处理

1.数据清洗:对于爬虫爬取的HTML原始文本,需要进行数据清洗过滤掉标签文本。

2.分词(只针对中文文本):对于中文文本数据,比如一条中文的句子,词语词之间是连续的,而数据分析的最小单位粒度我们希望是词语,所以我们需要进行分词工作,这样就给下一步的工作做准备。

3.词性标注(可选):词性标注POS的目的是为了让句子在后面的处理中融入更多的有用的语言信息。不过对于一些文本处理任务,这一步不是必须的。

4.去停用词:停用词stopword是指那些对文本特征没有任何贡献作用的词语,例如一些语气助词和一些标点符号。在一些文本也能针对性的去掉一些词,如形容词

 (二)、构造文本特征

        将文本符号转换成或者表示成能让学习模型能够处理的数据类型,也就是将文本符号串转变为数字,更确切的说是向量阵列:矩阵。一般使用的方法有词袋(count,tf-idf)和词向量(word2vec,glove)。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值