Python也可以这样玩!

640?wx_fmt=png


640?wx_fmt=png


640?wx_fmt=png


640?wx_fmt=png


640?wx_fmt=png


640?wx_fmt=png


对《还珠格格》进行词频统计

640?wx_fmt=png
640?wx_fmt=png


640?wx_fmt=png

对《还珠格格》的词频统计生成词云标签

640?wx_fmt=png

将《2016年中国政府工作报告》变成词云是这样的

640?wx_fmt=png

然后是《小时代》

640?wx_fmt=png
640?wx_fmt=png


640?wx_fmt=png

以小燕子照片为词云背景

640?wx_fmt=jpeg

对《射雕英雄传》进行词频统计并以郭靖剧照作为词云背景

640?wx_fmt=jpeg

有没有满满的即视感?

640?wx_fmt=png


640?wx_fmt=png


640?wx_fmt=png
640?wx_fmt=png
一个Web端的电影数据库交互
640?wx_fmt=png
640?wx_fmt=png
640?wx_fmt=png

可以了解整个香港电影史,从早期合拍上海片,到胡金栓的武侠片,到李小龙时代,然后是成龙,接着周星驰

640?wx_fmt=png640?wx_fmt=png
对职责要求的词频分析,提炼出必需技能
640?wx_fmt=jpeg640?wx_fmt=png

用爬虫爬下上万知乎女神照片
640?wx_fmt=png
640?wx_fmt=png

最后,展示一下Python代码:

词频统计和词云的代码

from wordcloud import WordCloudimport jiebaimport PILimport matplotlib.pyplot as pltimport numpy as npdef wordcloudplot(txt):    path = 'd:/jieba/msyh.ttf'    path = unicode(path, 'utf8').encode('gb18030')    alice_mask = np.array(PIL.Image.open('d:/jieba/she.jpg'))    wordcloud = WordCloud(font_path=path, background_color="white", margin=5, width=1800, height=800, mask=alice_mask, max_words=2000, max_font_size=60, random_state=42)    wordcloud = wordcloud.generate(txt)    wordcloud.to_file('d:/jieba/she2.jpg')    plt.imshow(wordcloud)    plt.axis("off")    plt.show()def main():    a = []    f = open(r'd:\jieba\book\she.txt', 'r').read()    words = list(jieba.cut(f))    for word in words:        if len(word) > 1:            a.append(word)    txt = r' '.join(a)    wordcloudplot(txt)if __name__ == '__main__':    main()

爬知乎女神的代码

import requestsimport urllibimport reimport randomfrom time import sleepdef main():    url = 'xxx'    headers = {xxx}    i = 925    for x in xrange(1020, 2000, 20):        data = {'start': '1000',                'offset': str(x),                '_xsrf': 'a128464ef225a69348cef94c38f4e428'}        content = requests.post(url, headers=headers, data=data, timeout=10).text        imgs = re.findall('<img src=\\\\\"(.*?)_m.jpg', content)        for img in imgs:            try:                img = img.replace('\\', '')                pic = img + '.jpg'                path = 'd:\\bs4\\zhihu\\jpg4\\' + str(i) + '.jpg'                urllib.urlretrieve(pic, path)                print ('下载了第' + str(i) + u'张图片')                i += 1                sleep(random.uniform(0.5, 1))            except:                print ('抓漏1张')                pass        sleep(random.uniform(0.5, 1))if __name__ == '__main__':    main()

来源:挖数

链接:https://www.zhihu.com/question/28975391

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值