学习或专研一样东西真的需要常年累月的积累,很久没写博客了,以后坚持记录,督促进步。
学了一年多的机器学习,讲真是在东边学一点,西边凑一点。从机器学习算法,到NLP,舆情,图像处理,神级网络,似乎都了解了一下,但是也都不怎么熟悉。回想看来还是得一项一项,围绕专题与算法研究来学习,才能有实质的进步。编程必不可少,编程的过程能思考很多实施上的问题,也能加深对算法的理解和调参的理解。
机器学习的步骤:
数据的搜集:dataFramework的能力很强大,分组,去重,fillnan,需要好好掌握。
分布观察,特征工程:seaborn必不可少,查看分布的神器。热力图不必说,先选特征吧。数据量大的时候真心伤不起
数据转换:onehot编码,数据归一化,好吧,暂时用的手段很少,还是要做一个工具包。onehot真难搞,属性*数据太多会内存错误。大数据量的运作麻烦啊。onthot也不是必须的,决策树类型的就不必。
调参:讲真,模型调参是个麻烦的事情。不同模型的调参不是随便搞得,初始值与范围其实根据模型的特征和数据的属性上就可以有一个初步的判断,需要加深模型理解。大数据量调模型很慢,先缩小,进行模型的初步调参,然后再到大数据量最好。
实施过程:先想好过程吧,总结一套自己的流程,不然总是返工,很浪费时间。机器学习的却是经验很重要的学科,对于专题的研究必不可少。
加油,保持更新。