jieba分词-选择词性-词频统计

最新推荐文章于 2024-10-16 08:40:19 发布

SpinMeRound

最新推荐文章于 2024-10-16 08:40:19 发布

阅读量1.2k

点赞数 2

本文链接：https://blog.csdn.net/SpinMeRound/article/details/105352390

版权

本文介绍使用Python进行文本处理，包括导入必要的模块如numpy、pandas和jieba，进行关键词提取并统计词频，最后将结果导出为CSV文件。通过实际案例展示了如何利用TextRank算法从Excel文件中抽取关键词。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

导入模块包

import numpy as np
import pandas as pd
import jieba
import jieba.analyse
import codecs
import os #更改当前路径
import re

设置当前工作路径

os.chdir(r'文件路径1')
#设置pd的显示长度
pd.set_option('max_colwidth',500)

载入数据


rows=pd.read_excel('某某.xlsx',dtype=str)

segments = []
for index, row in rows.iterrows():
    content = row[4] #这里表示第4列
    #TextRank 关键词抽取，只获取固定词性
    words = jieba.analyse.textrank(content, topK=50,withWeight=False,allowPOS=('ns', 'n', 'vn', 'v')) #词性'ns', 'n', 'vn', 'v'
    splitedStr = ''
    for word in words:
        # 记录全局分词
        segments.append({'word':word, 'count':1})
        splitedStr += word + ' '
dfSg = pd.DataFrame(segments)

词频统计

dfWord = dfSg.groupby('word')['count'].sum()
#导出csv
#dfWord.to_csv('keywords1.csv',encoding='utf-8')

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

SpinMeRound

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

R语言中使用jiebaR进行词频统计

DevNinja的博客

08-27

544

在R语言中，jiebaR是一个常用的中文分词工具，它提供了一种方便的方式来处理中文文本数据。除了分词功能外，jiebaR还可以用于计算词频统计，即统计文本中各个词语的出现频率。本文将介绍如何使用jiebaR包进行词频统计，并提供相应的源代码示例。你可以将上述代码保存到一个R脚本文件中，并根据需要加载不同的文本数据进行词频统计。假设我们有一个名为"text.txt"的文本文件，其中包含了要进行词频统计的内容。最后，我们可以按照词频从高到低对词语进行排序，并输出前几个高频词语及其频率。接下来，我们可以使用。

python jieba库词频统计_jieba库的使用与词频统计

weixin_39822728的博客

12-08

3108

1、词频统计(1)词频分析是对文章中重要词汇出现的次数进行统计与分析，是文本挖掘的重要手段。它是文献计量学中传统的和具有代表性的一种内容分析方法，基本原理是通过词出现频次多少的变化，来确定热点及其变化趋势。(2)安装jieba库安装说明代码对 Python 2/3 均兼容全自动安装：easy_install jieba 或者 pip install jieba / pip3 install jie...

参与评论您还未登录，请先登录后发表或查看评论

利用jieba实现分词、高频词统计、词性标注

Mr_WangYC的博客

09-21

5007

小编学习nlp的起步阶段，今天利用python语言中的jieba包，实现了中文的分词、高频词统计、词性标注。我知道对于原理理解的重要性，迫不及待地把实现的过程记录在博客中，算法原理问题过后进行补充。 1、jieba分词 Jieba提供了三种分词模式：精确模式：视图将句子切分的最精确。全模式：把句子句子中，所有可以成词的词语都扫出来，速度快，但是不能解决歧义的问题。模糊模式：在精确模式...

文本处理（二）词频统计,jieba分词，词性标注，snownlp情感分析

qq_21238927的博客

05-02

8802

这一篇接着上一篇处理后的数据进行操作，按照（一）中的步骤，这事应该将文本数据每一行中的高频的正面词去掉，因为多数是描述身体健康的短句，只有少数是描述脾脏检查异常的，所以尝试删除掉描述身体健康的短句，只留下少数检查异常的数据，对异常的检查数据进行特征提取，这是思路。所以这一篇目的是找到并且去除描述正常情况的短句。##对a和d进行分析后补充，这里是经过一次试错之后才发现开头应该把这些作为词组保留并添加...

jieba分词词性对照字典

baby_hua的专栏

04-10

470

【代码】jieba分词词性对照字典。

汉诺塔

weixin_30535565的博客

04-03

一、结巴中文分词涉及到的算法包括： (1)基于Trie树结构实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（DAG)； (2)采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合； (3)对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。结巴中文分词支持的三种分词模式包括： (1)精确模式：试图将句子最精确地...

电子-街霸.zip

09-05

【电子-街霸.zip】这个压缩包文件主要涵盖了与单片机和嵌入式系统相关的知识，特别是关于STM32系列微控制器的F0、F1和F2型号的使用。STM32是由意法半导体（STMicroelectronics）推出的基于ARM Cortex-M内核的微控制...

python --jieba 分词

weixin_62816287的博客

04-07

7572

jieba库是什么 jieba库中文分词第三方库，中文文本需要通过分词获得单个的词语。 jieba库的原理：利用中文字库，确定汉字之间的关联概率，汉字件概率大的组成词组，形成分词结果，还可以添加自定义的词组。 jieba库的使用 jieba库分词有3种 1.精确模式：一段文本精确地切分成若干个中文单词，若干个中文单词经过组合，精确还原原先地文本，不存在冗余单词。 2.全模式：一段文本种所有可能出现地词语都扫描出来，一段文本从不同地角度切分成不同地词语，分词后地信息组合会有冗余，不在是原来的文本。

STM32-F0/F1/F2单片机电子游戏街霸模拟器

开发者需要根据应用需求选择合适的单片机型号，并编写相应的程序代码。 4. 游戏机与模拟器开发：在嵌入式系统中，游戏机是一个常见的应用案例。对于“街霸”这样的经典游戏，开发者可以通过模拟器技术在不同的硬件...

jieba分词详解和实践

01-20

jieba分词是Python编程语言中广泛用于处理中文文本的分词工具，它以其高效、易用和丰富的功能，成为了中文自然语言处理领域的首选组件。本文将深入解析jieba分词的工作原理，并通过实例探讨其在实践中的应用。首先...

Java手机街霸游戏源码.rar

07-10

Java手机街霸游戏源码是基于早期的J2ME（Java 2 Micro Edition）平台开发的一款经典格斗游戏。J2ME是Java的一种轻量级应用平台，主要用于移动设备、嵌入式系统和其他有限资源的设备。这个源码提供了一个深入了解如何...

利用jieba进行中文分词并进行词频统计

空字符

07-13

3万+

1.安装jieba库在windows的Anaconda环境下如果没有设置环境变量，则从Dos命令先进入...\Anaconda3\Scripts 目录中，然后运行以下命令即可： pip install jieba 2.分词示例我们先用一段文本来进行分词并做词频统计：央视网消息：当地时间11日，美国国会参议院以88票对11票的结果通过了一项动议，允许国会“在总统以国家安全为...

利用jieba库进行词频统计

算法与编程之美

06-12

3691

0 引言在读一篇文章和读一本经典名著时，我们常常想统计出来每个词汇出现的次数及该词汇的出现频率，其实我们可以利用Python中的第三方库jieba库来实现。1 问题通过对一篇文章和一本书中的词频统计，我们可以知道什么事物或是谁在该文章或该著作作者用了更多的文笔来提到和描述它，2 方法encoding=’ANSI’:将打开的文本格式设为ANSI形式read(size):方法...

jieba分词原理 ‖ 词性标注

weixin_39224015的博客

07-14

2336

jieba分词原理 ‖ 词性标注 jieba分词原理 ‖ 基于前缀词典及动态规划的分词实现 jieba分词原理 ‖ 基于汉字成词能力的HMM模型识别未登录词实现 jieba分词原理 ‖ 词性标注 jieba分词原理 ‖ 关键词抽取 1 简介词性（part-of-speech）是词汇基本的语法范畴，通常也称为词类，主要用来描述一个词在上下文的作用。例如，描述一个概念的词就是名词，在下文引用这个名词的词就是代词。有

浅谈Python之jieba分词