被在百度实习的同学介绍来参加这个课程,前一两天的内容确实比较“小白”,都是关于python语法的一些基本知识。但后面开始做有实际功能的模块和代码时,比如爬取数据,使用paddlehub识别,难度有所上升,让我这个小白投入了不少时间,当然也学有所获。下面一些技术细节的总结。
1. 关于爬虫:爬虫需要的包有requests和beautifulsoups,还需要一个解析器lxml。主要原理是寻找一个url,用requests获取url中的页面信息,用beautiful对获得的信息进行处理。所以爬取能够实现的关键就是找到的url,可以利用浏览器的开发者工具和正则表达式来搜寻正确的url。还有一个小思路是当要爬取不同主题的图片时(比如不同人名),可以将所有内容包在同一目录下的txt文件中,再结合python读取文件的函数实现一次性获取,
2. 关于自制数据集:因为百度的paddlehub包已经搭建好了模型和算法,因此在使用paddlehub时的主要工作量就集中在自制数据集。应注意训练集,验证集和测试集的数据比例,针对图片进行训练时,应注意训练集和测试集的图片质量最好保持一致(及背景,角度,光影等等),以此可以获得较好的训练质量。自制数据集时,可结合爬虫技术,也可以用python也一些批量处理文件的小程序(比如批量重命名,批量输出图片名称到txt并分类等等),可以大大提升制作效率。
3. 关于绘制词云:matplot包带有绘制词云功能,应注意不同参数的含义,形状图片要有白色背景但白色不能过多,否则会使词云过于稀疏。
总结:aistudio总体体验很好,配置环境简便,对新手友好,期待更多技术课程。革命尚未成功,仍待继续努力~~