python的总结与心得词云设计理念_Python小白七日心得之从九九乘法表到绘制词云...

被在百度实习的同学介绍来参加这个课程,前一两天的内容确实比较“小白”,都是关于python语法的一些基本知识。但后面开始做有实际功能的模块和代码时,比如爬取数据,使用paddlehub识别,难度有所上升,让我这个小白投入了不少时间,当然也学有所获。下面一些技术细节的总结。

1.      关于爬虫:爬虫需要的包有requests和beautifulsoups,还需要一个解析器lxml。主要原理是寻找一个url,用requests获取url中的页面信息,用beautiful对获得的信息进行处理。所以爬取能够实现的关键就是找到的url,可以利用浏览器的开发者工具和正则表达式来搜寻正确的url。还有一个小思路是当要爬取不同主题的图片时(比如不同人名),可以将所有内容包在同一目录下的txt文件中,再结合python读取文件的函数实现一次性获取,

2.      关于自制数据集:因为百度的paddlehub包已经搭建好了模型和算法,因此在使用paddlehub时的主要工作量就集中在自制数据集。应注意训练集,验证集和测试集的数据比例,针对图片进行训练时,应注意训练集和测试集的图片质量最好保持一致(及背景,角度,光影等等),以此可以获得较好的训练质量。自制数据集时,可结合爬虫技术,也可以用python也一些批量处理文件的小程序(比如批量重命名,批量输出图片名称到txt并分类等等),可以大大提升制作效率。

3.      关于绘制词云:matplot包带有绘制词云功能,应注意不同参数的含义,形状图片要有白色背景但白色不能过多,否则会使词云过于稀疏。

总结:aistudio总体体验很好,配置环境简便,对新手友好,期待更多技术课程。革命尚未成功,仍待继续努力~~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值