使用python提取关键词

最新推荐文章于 2023-02-22 02:34:25 发布

weixin_42062609

最新推荐文章于 2023-02-22 02:34:25 发布

阅读量2.1k

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/weixin_42062609/article/details/80671884

版权

提取文章关键词，使用TF-IDF 算法，使用的例子是结合jieba分词，使用FreDist，因为TF-IDF算法需要的是一个语料库，当前语料库只有一篇文章，所以TF-IDF算法就退化成计算文章词频的算法了：
需要记录的是FreqDist的成员函数
plot(n)，绘制出现次数最多的前n项
tabulate(n)，该方法接受一个数字n作为参数，会以表格的方式打印出现次数最多的前n项
most_common(n)，该方法接受一个数字n作为参数，返回出现次数最多的前n项列表
hapaxes()，返回一个低频项列表

max()，该方法会返回出现次数最多的项。

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import jieba
import re
from nltk.book import *
from pylab import *
from jieba.analyse import *
def stop_words():
	stop_word_list = []
	f = open('stopwords.txt', 'rU',encoding='UTF-8')
	for word in f:
		stop_word_list.append(word.strip())
	return stop_word_list


r = requests.get('https://blog.csdn.net/chszs/article/details/80658582')
soup = BeautifulSoup(r.text, 'lxml')
# 获得主要内容
context = soup.find(

最低0.47元/天解锁文章

weixin_42062609

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
使用python提取关键词

提取文章关键词，使用TF-IDF 算法，使用的例子是结合jieba分词，使用FreDist，因为TF-IDF算法需要的是一个语料库，当前语料库只有一篇文章，所以TF-IDF算法就退化成计算文章词频的算法了：需要记录的是FreqDist的成员函数plot(n)，绘制出现次数最多的前n项tabulate(n)，该方法接受一个数字n作为参数，会以表格的方式打印出现次数最多的前n项most_common(...
复制链接

扫一扫