爬虫相关知识

打开文件:

open("文件路径",'r')里面放路径,

date = f.read()

print(data)

f.colose():释放资源

编辑文件

后面的r(只可读)改为w (编辑)

f=open()

f.write("x=1")# 写进去x=1 w是覆盖写入, 清空文件后写入

wordcloud 库的使用说明

wordcloud库的常规使用方法
方法描述
w.generate(txt)向WordCloud对象w中加载文本txt,w.generate("Python and WordCloud")
w.to_file(filename)将词云输出为图像文件,.png或.jpg?x-oss-process=style/watermark格式,w.to_file("outfile.png")

配置wordcloud.WordCloud

参数描述
width指定词云对象生成图片的宽度,默认400像素
height指定词云对象生成图片的高度,默认200像素
min_font_size指定词云中字体的最小字号,默认4号
max_font_size指定词云中字体的最大字号,根据高度自动调节
font_step指定词云中字体字号的步进间隔,默认为1
font_path指定字体文件的路径,默认None
max_words指定词云显示的最大单词数量,默认200
stop_words指定词云的排除词列表,即不显示的单词列表
mask指定词云形状,默认为长方形,需要引用imread()函数
background_color指定词云图片的背景颜色,默认为黑色

文本统计法

f=open(r'C:\Users\quyang\PycharmProjects\untitled\hamlet.txt',"r",encoding="utf8")
data = f.read().lower()
# print(data)
data_split = data.split(' ')
# print(data_split)

count_dict = {}
for word in data_split:
    if word not in count_dict:
        count_dict[word] = 1
    else:
        count_dict[word] += 1

# print(count_dict)
def func(i):
    return i[1]

lt = list(count_dict.items())
lt.sort(key=func)

lt.reverse()

for i in lt[0:10]:
    print(f'{i[0]:^7}{i[1]^5}')

中文统计法

import jieba

f = open(r'D:\上海Python11期视频\预科班\threekingdoms.txt', 'r', encoding='utf8')
data = f.read()

# print(data)

data_jieba = jieba.lcut(data)
print(data_jieba)

count_dict = {}
for word in data_jieba:
    if len(word) == 1:
        continue

    if word in {"将军", "却说", "荆州", "二人", "不可", "不能", "如此", "商议"}:
        continue

    # if word == '孔明曰':
    #     word = '孔明'
    # elif word == '玄德曰':
    #     word = '玄德'

    if '曰' in word:
        word = word.replace('曰', '')

    if word in count_dict:
        count_dict[word] += 1
    else:
        count_dict[word] = 1


def func(i):
    return i[1]


data_list = list(count_dict.items())

data_list.sort(key=func)
data_list.reverse()

print(data_list)

词云

# import wordcloud
# f=open(r'C:\Users\quyang\PycharmProjects\untitled\threekingdoms.txt','r',encoding="utf8")
# data = f.read()
# w = wordcloud.WordCloud(font_path=r'C:\Windows\Fonts\simfang.ttf')#是中文字体
# w.generate(data)#生成图片
# w.to_file('outfile2.png')

自己换图片

import  wordcloud
from imageio import imread
mask = imread(r'C:\Users\quyang\PycharmProjects\untitled\tst3.png')

f = open(r'C:\Users\quyang\PycharmProjects\untitled\threekingdoms.txt' , 'r', encoding='utf8')
data=f.read()
w=wordcloud.WordCloud(font_path=r'C:\Windows\Fonts\simsun.ttc', mask=mask , background_color="white")
w.generate(data)
w.to_file("outfile2.png")

转载于:https://www.cnblogs.com/quyang46/p/11215367.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值