“21天好习惯”第一期-4

jieba文本分词(入门)

针对爬虫得到的评论txt文件

  • 首先用with open打开已有文件,用read方法读出
with open("result.txt","r") as f:
    content=f.read()
  • 用jieba.cut()方法将得到的文本内容切割,默认情况是精准切割
seg_list=jieba.cut(content)

补充: jieba分词支持三种分词模式:
精确模式:试图将句子最精确地切开,适合文本分析:
全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;
搜索引擎模式:在精确模式的基础上,对长词再词切分,提高召回率,适合用于搜索引擎分词。
例子:

seg_list = jieba.cut("你说四大皆空,却紧闭双眼,要是你睁开眼睛看看我,我不相信你两眼空空", cut_all=True)#全模式
print("全模式:", "/".join(seg_list))

seg_list = jieba.cut("你说四大皆空,却紧闭双眼,要是你睁开眼睛看看我,我不相信你两眼空空", cut_all=False)#精确模式
print("精确模式:", "/".join(seg_list))

seg_list = jieba.cut("你说四大皆空,却紧闭双眼,要是你睁开眼睛看看我,我不相信你两眼空空")  # 默认是精确模式
print("默认:","/".join(seg_list))

seg_list = jieba.cut_for_search("你说四大皆空,却紧闭双眼,要是你睁开眼睛看看我,我不相信你两眼空空")  # 搜索引擎模式
print("搜索引擎模式:", "/".join(seg_list))

结果:

全模式://四大/四大皆空/皆空///紧闭/双眼//要是//睁开/睁开眼/睁开眼睛/开眼/眼睛/看看/////相信//两眼/空空
精确模式://四大皆空///紧闭/双眼//要是//睁开眼睛/看看/////相信//两眼/空空
默认://四大皆空///紧闭/双眼//要是//睁开眼睛/看看/////相信//两眼/空空
搜索引擎模式://四大/皆空/四大皆空///紧闭/双眼//要是//睁开/开眼/眼睛/睁开眼/睁开眼睛/看看/////相信//两眼/空空

可以看出精准分词不会有重复的词,搜索引擎模式是分的最细的

  • 用一个列表装停用字(一般要用文档)
    将分割得到的词语去除停用字

  • 然后用wordcloud库生成词云

# encoding=utf-8
import collections
import jieba
from jieba import analyse
from wordcloud import WordCloud
import pandas

with open("result.txt","r") as f:
    content=f.read()

stopword=['的','是','评论','配图',',','.','。','!']
seg_list=jieba.cut(content)
seg_list=",".join(seg_list)
word_list=[]

for seg in seg_list.split(","):
    if seg not in stopword:
            word_list.append(seg)


with open("split_result.txt", "a", encoding="utf-8") as f:
    f.write(str(word_list))

word_counts=collections.Counter(word_list)
word_counts_top=word_counts.most_common(100)
df=pandas.DataFrame(word_counts_top)
df.to_csv(r'most_common_words.csv',index=None,header=None)

tags=jieba.analyse.extract_tags(content,topK=100,withWeight=True)
keywords=dict()
for i in tags:
    keywords[i[0]]=i[1]


wc=WordCloud.generate(keywords=keywords)

wc.to_file('wordcloud.png')
内容概要:本文详细探讨了双馈风力发电机(DFIG)在Simulink环境下的建模方法及其在不同风速条件下的电流与电压波形特征。首先介绍了DFIG的基本原理,即定子直接接入电网,转子通过双向变流器连接电网的特点。接着阐述了Simulink模型的具体搭建步骤,包括风力机模型、传动系统模型、DFIG本体模型和变流器模型的建立。文中强调了变流器控制算法的重要性,特别是在应对风速变化时,通过实时调整转子侧的电压和电流,确保电流和电压波形的良好特性。此外,文章还讨论了模型中的关键技术和挑战,如转子电流环控制策略、低电压穿越性能、直流母线电压脉动等问题,并提供了具体的解决方案和技术细节。最终,通过对故障工况的仿真测试,验证了所建模型的有效性和优越性。 适用人群:从事风力发电研究的技术人员、高校相关专业师生、对电力电子控制系统感兴趣的工程技术人员。 使用场景及目标:适用于希望深入了解DFIG工作原理、掌握Simulink建模技能的研究人员;旨在帮助读者理解DFIG在不同风速条件下的动态响应机制,为优化风力发电系统的控制策略提供理论依据和技术支持。 其他说明:文章不仅提供了详细的理论解释,还附有大量Matlab/Simulink代码片段,便于读者进行实践操作。同时,针对一些常见问题给出了实用的调试技巧,有助于提高仿真的准确性和可靠性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值