我不是程序员,也不是设计师,我只是碰巧有一些想法和一台电脑。
I am not a designer nor a coder. I'm just a guy with a point-of-view and a computer.
近两年最大的收获并不是作为隧道狗取得了多少的进步,而是入门的Py大法,填坑的故事就这样开始了(Python3 撸过,不要问2.7):
Step1.最初学习自然爬虫的坑,我没有从框架学起,用BS、Request、Re,然后就是多线程处理。这个阶段的难点在于多线程的处理。另,数据存储采用CSV,JS还是用重器Selenium。
Step2.爬虫的另一个坑就是验证码处理,最开始也是自己组装,简易验证码图片二值化、降噪,提取点阵(Pillow),然后循环对比,取差异最小值为匹配最佳数据,虽然有点弱,但是正确率还是可以的,至于后来的KNN分析,提取训练集,也用到了该阶段的源码。
Step3.这个时候就遇到了爬取数据如何清理的问题,Pandas必须要学习,紧跟着要分析词频NLP,Jieba至少要了解一下,好歹要自动获取相对理想的数据才行。完成之后,才发现在win平台下面的坑实在太多,数据可视化?
Step4.一开始想用Tkinter,学了它的Grid布局之后,就开始简单的堆砌,做了一个数据在线查询的exe工具,就觉得这货没有什么前途。我们并不满足于Win桌面应用的开发,我们的目标应该在Web端才对。但不久,你会发现Seaborn安装就搞死了人,再后来上手Plotly才知道这货也挺好用的,直接生成html或png,那么,问题又来了,Web该用哪个框架?
Step5.经过一番挣扎,决定入坑Flask,耗时三个月,第一个月把狗书翻了两遍,第二个月前半个月把狗书的源码敲了一遍,接着就开始实践自己的Idea。Bootstrap、Jinjia2、上下文引用,WTF、MongoDB、Login,一步步的探坑,总算组装出来了第一个可以本机运行的网站。
Step6.部署选用阿里还是腾讯?一开始坚定前者,直到最近才确定用腾讯云,因为我们知道,不管用哪个坑都会很多。没错,Centos7安装python3,仅仅一个pip就捣腾了一天,CSDN、博客园转了一遍,最后在万能的我乎找到了正解。
Step7.他妈的,马上就到2017了,未来一年在完善web的基础上,深挖数据分析,道友同行乎?