真就是由于不开学闲的,我又开始第二个项目,这个项目是用python爬取唐诗三百首而后诗意取名,特别fash,里面涉及到不少知识点,我以为看完这个,你至少会了python半边江山,好比网络爬虫,程序化设计,中文分词等等----html
许久不见的老同窗生了宝宝,取名张三??我很不解的问他缘由,告诉我说孩子是三点生的,纳尼,那个人孩子是否是得叫派森啊,由于我喜欢python,以后,我就开始了这个项目,目的是为了利用古诗生成一些好听的名字,等我之后取名的时候或许还有用咧,就避免满大街的张三李四张伟王大了,汗颜无比,开始咱们的项目吧。python
来,给咱们的儿子取一个名字吧!git
项目预览:
gif预览:
页面预览:
项目技术:
网络爬虫 : requests库 , xpath语法
正则 : re库
随机库 : random库
中文分词 : jieba库
GUI界面 :tkinter库
图片处理 : PIL库
程序打包: pyinstaller库
项目思路:
这个项目的思路大体以下:经过爬虫获取唐诗三百首的全部文本,而后通过中文分词,筛选出想要的,而后组成名字,最后写入GUi界面中,喜欢的也能够打包程序,在哪都能用到了。web
本次项目也遇到一些bug,筛选词汇的特殊符号,以及筛选过程的误区,使用GUI界面定义按钮的假死状态,这些我都克服了,在下面的讲解中我会详细说说。windows
项目流程:
爬取唐诗获得文本:
网页连接以下:
http://www.shicimingju.com/shicimark/tangshisanbaishou_1_0__0.html
http://www.shicimingju.com/shicimark/tangshisanbaishou_2_0__0.html
http://www.shicimingju.com/shicimark/tangshisanbaishou_3_0__0.html网络
那么从这个就能看到每一个网页的特性了,就是1,2,3,