一个获取大量文章标题标签的办法

本文介绍了如何通过去除停用词和标点符号,运用ngram模型和nltk库来为大量文章标题生成标签。方法1手动进行,方法2则利用nltk的Text类自动化分析。最终,通过文本索引实现文章标签的精准匹配。
摘要由CSDN通过智能技术生成

数据

这是大量的论文文章的标题
这里写图片描述

思维方法

所谓标签指的就是有些共同的特征,所以不能局限于一个文章标题,要全局考虑
文章标题中很多停用词(stopwords)以及标点符号应该去除
这里写图片描述
ngram模型
这里写图片描述
有了上述条件就可以粗略的寻找文章的标签了

工具

使用python以及python的nltk自然语言处理库非常方便
这个是nltk中文文档

方法1

按照上述思路借助nltk库进行

import re
        from pymongo import MongoClient
        client = MongoClient("192.168.33.131", 27017)#连接数据库取用数据
        db = client.ccf.article.find()
        text = ""
        for a in db:
            text += " " + a['title']#将标题拼接成一个文本
        from nltk import word_tokenize, bigrams#使用nltk的英文分词以及2gram模型
        from nltk.corpus import stopwords#停用词
        list_stopWords = list(set(stopwords.words('english')))#获取英文停用词数据
        text = text.lower()#小写转换方便分析
        text = re.sub(r'[{}]+'.format(":,.?"), ' ', text)#用正则表达式去除无用的符号
        text = word_tokenize(text)#分词技术

        text = [w for w in
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值