文本分词，记词频，做词云

最新推荐文章于 2024-01-16 17:06:56 发布

paulsweet_M

最新推荐文章于 2024-01-16 17:06:56 发布

阅读量1k

点赞数

分类专栏： R

本文链接：https://blog.csdn.net/paulsweet123/article/details/52194230

版权

R 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

a <- segmentCN("1.txt",returnType="tm")

b <- read.table("1.segment.txt",fill=T)

?table

lecture=read.csv("1.segment.txt",sep=",",header=TRUE,fileEncoding="UTF-8")

# 查看前几行，看是否有字符编码问题

head(lecture);

# 获取数据集长度

n=length(lecture[,1]);

print(n)

# == 文本预处理

res=lecture[lecture!=" "];

#剔除URL

res=gsub(pattern="http:[a-zA-Z\\/\\.0-9]+","",res);

#剔除特殊词

res=gsub(pattern="[我|你|的|了|是]","",res);

# == 分词+频数统计

words=unlist(lapply(X=res, FUN=segmentCN));

word=lapply(X=words, FUN=strsplit, " ");

v=table(unlist(word));

# 降序排序

v=rev(sort(v));

d=data.frame(word=names(v), freq=v);

# 过滤掉1个字和词频小于20的记录

d=subset(d, nchar(as.character(d$word))>1 & d$freq>=20)

#设置中文输出

par(family='STKaiti')

mycolors <- brewer.pal(8,"Dark2")

wordcloud(d$word,d$freq,random.order=F,random.color=F,colors=mycolors)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

paulsweet_M

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

用Python分析文本数据的词频并词云图可视化

m0_64336780的博客

09-20

1万+

上次批量提取了上市公司主要业务信息，要分析这些文本数据，就需要做文本词频分析。由于中文不同于英文，词是由一个一个汉字组成的，而英文的词与词之间本身就有空格，所以中文的分词需要单独的库才能够实现，常用的是`jieba`。

R语言实战应用精讲50篇（十八）-R语言实现分词、词频与词云案例解析

wenyusuran的专栏

10-31

2047

“包”治百病我真的超爱R语言，原因之一就是R有许多已经写好、“开箱即用”的程序包（有关R语言程序包的详细介绍，可以阅读我之前的推送“一起来学R│4-包的安装与调用”）可以直接拿来用；要知道，程序包减少了多少工作量呀。当然，其他语言也有类似的包，但是貌似没那么多、没那么细。这一期咱就要用jiebaR包、sqldf包和wordcloud2包完成中文文本的分词、词频统计与绘制词云图的工作。首先设置工作目录：可以通过R-Gui的“文件-改变工作目录”菜单完成，也可以通过以下代码；设置工作目录的意义是，你的所.

参与评论您还未登录，请先登录后发表或查看评论

可视化文本数据—词云

热门推荐

王亨的博客

06-28

1万+

“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登（Rich Gordon）于提出，词云是一种可视化描绘单词或词语出现在文本数据中频率的方式，它主要是由随机分布在词云图的单词或词语构成，出现频率较高的单词或词语则会以较大的形式呈现出来，而频率越低的单词或词语则会以较小的形式呈现。词云主要提供了一种观察社交媒体网站上的热门话题或搜索关键字的一种方式，它可以对网络文本中出现频率较高的

用R进行文本挖掘与分析：分词、画词云【转】

Zeeno的学习博客

03-10

2560

1、直接上源码： -----------------------以下是源码，直接复制即可使用--------------------------------- #调入分词的库 library("rJava") library("Rwordseg") #调入绘制词云的库 library("RColorBrewer") library("wordcloud") #读...

python词云词频分析_Python词云（词频统计，掩膜显示）

weixin_39825322的博客

11-30

880

Python2.7 anaconda。安装Wordcloud，网上有许多下载路径，说一下掩模，就是在这个膜的区域才会有东西，当然这个与实际的掩模还有一定区别，这个词频显示是把所有统计的词，显示在这个掩模图片的非白色区域。（接下来就不用看着网上那些小软件很羡慕，其实代码就十行左右，你也可以）from os import pathfrom scipy.misc import imreadimport ...

词频统计以及分析（词云制作）

07-13

3585

对文章进行词频的统计，分析文章的所属类型，分析文章是否满足要求，进行等等操作的时候，就需要进行词频的统计，还有就是制作一个词云图，直观显示文章的比重。一、对英语文章的分析、首先对文章进行特征处理（处理掉一些特殊符号）； # 对文章进行特征处理 def getText(): txt = open("time.txt", "r").read() txt = txt.lower()

Excel词云图

qq_42052864的博客

06-19

7385

#coding=utf-8 #encoding=utf8 import jieba from jieba.analyse import extract_tags from scipy.misc import imread from wordcloud import WordCloud, ImageColorGenerator import matplotlib.pyplot as plt from...

文本挖掘学习（一）分词、词频、词云

一币通关的博客

02-22

1833

文本分词

zoe的博客

06-23

1446

1. 基本文本处理技能英文分词，常以空格分词，中文分词较为复杂，常见方法有：正向最大、逆向最大、双向最大匹配法，这些方法是基于词典匹配而成。正向最大：从前往后取词，每次减一个字，直至词典命中或剩下1个单字。逆向最大：从后往前取词，每次减一个字，直至词典命中或剩下1个单子。双向最大匹配：正向最大与逆向最大两种算法都进行一遍分词，根据词的颗粒度越大越好且单字和非字...

python中文文本分词_Python中文文本分词、词频统计、词云绘制

weixin_35740442的博客

01-14

1347

本文主要从中文文本分词、词频统计、词云绘制方面介绍Python中文文本分词的使用。会使用到的中文文本处理包包括：wordcloud,jieba，re(正则表达式),collections。1 准备工作导入相关的包，读取相关数据。#导入包import pandas as pd #数据处理包import numpy as np ...

python:从excel中提取高频词生成词云

01-15

https://blog.csdn.net/liu506039293/article/details/103972942

基于词频生成词云图【文本预处理-统计词频-生成词云】.rar

最新发布

06-18

它涵盖了从文本预处理、分词、词频统计到最终生成词云图的完整流程。脚本首先通过正则表达式清洗文本，去除无关字符和信息，如特殊符号、网址、日期等。随后，使用jieba分词库对清洗后的文本进行分词，并统计名词...

python词频统计完整步骤_Python中文文本分词、词频统计、词云绘制

weixin_39622655的博客

11-24

2306

本文主要从中文文本分词、词频统计、词云绘制方面介绍Python中文文本分词的使用。会使用到的中文文本处理包包括：wordcloud,jieba，re（正则表达式）,collections。1 准备工作导入相关的包，读取相关数据。#导入包import pandas as pd #数据处理包import numpy as np ...

【词云图】从excel和从txt文件，绘制以句子、词为单位的词云图

定期分享我的发现和想法，感谢你的陪伴和支持

12-09

2763

经常绘制词云图，这次正好梳理一下，方便之后自己直接copy微调代码。代码功能说明： 1、支持plt绘图的中文正常显示 2、以句为单位、和以词为单位进行词云图分析 3、支持excel的数据读取，注意excel中nan数据必须先进行处理，本文以'未提供'填充缺失数据。 4、支持txt文件的数据读取

用pandas读写excel文件和词云库wordcloud的安装与应用

2302_79647973的博客

12-21

941

wc = wordcloud.WordCloud(mask = im,font_path = 'C:\Wimdows\Fonts\STCAIYUN.TTF',background_color = '#ffffff') #(2)创建词云对象。wc.to_file('../R&Q_pic/test.jpg') #(4)输出词云图片(文件)wc.to_file('../R&Q_pic/test.jpg') #(4)输出词云图片(文件)data.head(10) #读取文件前10项数据，默认5项。

【Python绘图小课堂】词云韦恩图（下篇-Excel结果输出及词云图绘制）

qq_36516414的博客

09-05

2823

在上篇我们介绍了分词、词频统计，为我们的韦恩图绘制做好了准备。在这一篇，就来讲讲在Python中将结果输出为Excel文件，并绘制我们的词云韦恩图。

python 根据execl词云生成排序图（二）

u014694915的博客

01-16

522

本文在mac环境中运行，如果是windows，在字体设置上可能会有区别。

python execl数据清洗/词云可视化（一）

u014694915的博客

01-15

864

链接: https://pan.baidu.com/s/11bhyDXRcIHA_VAAOCl6Jfg?pwd=njvy 提取码: njvy。（数据清洗）对excel表的内容进行读取/查重/分词/统计。前提：电脑中要先下载字体（根据需要的字体进行下载）

python词云制作（使用txt文件内容）

m0_73344878的博客

11-02

3945

快速上手python词云

python结巴分词词频统计词云图

04-27

3. 文本分词：使用jieba库对文本进行分词，将文本切分成一个个独立的词语。可以使用以下代码进行分词： ```python text = "待分词的文本" words = jieba.lcut(text) ``` 4. 词频统计：统计每个词语在文本中出现...