python输出到txt随机命名_使用Python从.txt文件中随机生成一个加权词列表

最新推荐文章于 2022-11-11 21:50:01 发布

啥雷慧星

最新推荐文章于 2022-11-11 21:50:01 发布

阅读量150

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_34007963/article/details/114466648

版权

Python 语料库词汇频率随机生成句子构建

关键词由CSDN通过智能技术生成

我需要一个代码,根据形成的语料库的统计分布,随机地生成一个会话的有意义单词列表,也就是说,它们将根据该语料库中委托的频率生成。

我从这个链接开始,我已经清理了它,删除了停止词(西班牙语),只留下500个最常见的单词:

import requests

wiki_url = "https://es.wiktionary.org/wiki/Wikcionario:Frecuentes-(1-1000)-Subt%C3%ADtulos_de_pel%C3%ADculas"

wiki_texto = requests.get(wiki_url).text

from bs4 import BeautifulSoup

wiki_datos = BeautifulSoup(wiki_texto, "html")

wiki_filas = wiki_datos.findAll("tr")

print(wiki_filas[1])

print("...............................")

wiki_celdas = wiki_datos.findAll("td")

print(wiki_celdas[0:])

fila_1 = wiki_celdas[0:]

info_1 = [elemento.get_text() for elemento in fila_1]

print(fila_1)

print(info_1)

info_1[0] = int(float(info_1[0]))

print(info_1)

print("...............................")

num_or = [int(float(elem.findAll("td")[0].get_text())) for elem in wiki_filas[1:]]

palabras = [elem.findAll("td")[1].get_text().rstrip() for elem in wiki_filas[1:]]

frecuencia = [elem.findAll("td")[2].get_text().rstrip() for elem in wiki_filas[1:]]

print(num_or[0:])

print(palabras[0:])

print(frecuencia[0:])

from pandas import DataFrame

tabla = DataFrame([num_or, palabras, frecuencia]).T

tabla.columns = ["NÃºm. orden", "Palabras", "Frecuencia"]

print(tabla)

print("...............................")

import pandas as pd

from nltk.corpus import stopwords

prep = stopwords.words('spanish')

print(prep)

tabla_beta = pd.read_html(wiki_url)[0]

tabla_beta.columns = ["NÃºm. orden", "Palabras", "Frecuencia"]

tabla_beta = tabla_beta[~tabla_beta['Palabras'].isin(prep)].head(500)

print(tabla_beta)

结果是一个包含500个寄存器和3列的数据帧,最后一列是每个字的频率:

我现在需要的是一个代码,根据第3栏中的频率随机生成一个包含这些单词的句子。

欢迎任何帮助!谢谢您。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。