python的总结与心得词云设计理念_Python小白七日心得之从九九乘法表到绘制词云...

weixin_39653622

于 2021-02-04 07:42:13 发布

阅读量480

点赞数

文章标签： python的总结与心得词云设计理念

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39653622/article/details/113673475

版权

被在百度实习的同学介绍来参加这个课程，前一两天的内容确实比较“小白”，都是关于python语法的一些基本知识。但后面开始做有实际功能的模块和代码时，比如爬取数据，使用paddlehub识别，难度有所上升，让我这个小白投入了不少时间，当然也学有所获。下面一些技术细节的总结。

1. 关于爬虫：爬虫需要的包有requests和beautifulsoups，还需要一个解析器lxml。主要原理是寻找一个url，用requests获取url中的页面信息，用beautiful对获得的信息进行处理。所以爬取能够实现的关键就是找到的url，可以利用浏览器的开发者工具和正则表达式来搜寻正确的url。还有一个小思路是当要爬取不同主题的图片时(比如不同人名)，可以将所有内容包在同一目录下的txt文件中，再结合python读取文件的函数实现一次性获取，

2. 关于自制数据集：因为百度的paddlehub包已经搭建好了模型和算法，因此在使用paddlehub时的主要工作量就集中在自制数据集。应注意训练集，验证集和测试集的数据比例，针对图片进行训练时，应注意训练集和测试集的图片质量最好保持一致(及背景，角度，光影等等)，以此可以获得较好的训练质量。自制数据集时，可结合爬虫技术，也可以用python也一些批量处理文件的小程序(比如批量重命名，批量输出图片名称到txt并分类等等)，可以大大提升制作效率。

3. 关于绘制词云：matplot包带有绘制词云功能，应注意不同参数的含义，形状图片要有白色背景但白色不能过多，否则会使词云过于稀疏。

总结：aistudio总体体验很好，配置环境简便，对新手友好，期待更多技术课程。革命尚未成功，仍待继续努力~~

weixin_39653622

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。