统计csv词频_分词词频统计

本文介绍了三种在Power BI中进行词频统计的方法:1) 使用输入法词库,2) 利用R语言的jieba包进行分词,3) 调用SCWS分词API。通过这些方法,可以实现中文文本的分词和词频统计,以生成词频分析图表。
摘要由CSDN通过智能技术生成

网上随便找段文字,就以Power BI官网上这段文字为例好了:

想要统计其中的词频,实现如下图的效果:

解法1:使用输入法词库

其中的难点无疑在分词了,中文不像英文可以按空格拆开分词,仅仅单靠Power Query中的功能遇到这种问题好像没法搞,因为它不知道你要按什么规则来拆,不知道哪几个字连起来算一个词。

那我们就得想办法告诉它规则,于是想到了输入法。输入法之所以如此贴心,就是因为有着丰富的词库,我们可以去输入法的设置里找出词库导出来。

我已经把我的输入法词库导出来并上传到网站服务器上,所以如果你找不到词库在哪就直接用我的吧。

let

源 = Excel.CurrentWorkbook(){[Name="源数据"]}[Content],

词库 = Table.FromColumns({List.Buffer(List.Select(Csv.Document(Web.Contents("https://pqfans.com/pq/pinyin/py.txt"),[Delimiter=" "])[Column2],each Text.Length(_)<>1))},{"词"}),

词频 = Table.AddColumn(词库, "词频", each List.Count(Text.PositionOf(源[文本]{0},[词],2))),

排序 = Table.Buffer(Table.Sort(词频,{ {&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值