准备每天下班前都会花几分钟总结一下实习的每一天干了什么。
本人是某大型农民工企业的人肉实习标记师,调参实习魔法师。
实习的最终目的:
1.学会该公司的核心技术,后端的搜索技术,至少得掌握的七七八八。
2.能够靠实习期间学会的技术,找到一个算法工程师的工作。
2017年4月26日
早上入职。
中午食堂还挺好吃的,就是感觉人好多的样子?
下午电脑有问题,拿给it服务部门重新配了个系统。
领到新手任务:熟悉一下shell脚本,重点可以看看awk。学习一下hadoop的使用,主要是streaming方式。
我找到的awk学习链接:http://coolshell.cn/articles/9070.html
2017年4月27日
今天的任务是学习hadoop。
中午简单给了我三个shell的练习题,让我练练手。
练习题链接:http://www.cnblogs.com/qscqesze/p/6774125.html
百度内部的度学堂非常赞,干货特别多。
新的akw学习地址:http://awk.readthedocs.io/en/latest/
晚上被拖去听核心技术去了,然后就和听天书一样,完全听不懂。。。。
半天,shell从入门到跑路。
2017年4月28日
让我写爬虫,写个傻逼爬虫
确定了自己的开发方式,本地写代码->gitlab->pull开发机->开发机调试的过程。
2017年5月2日 14:25:29
放了三天的假,回来一看原来的爬虫效率好低,重构了一下,效率一下子就上来了。
然后扔在那儿爬了一上午。
我就去看公司内部的度学堂,去看了几节Hadoop的公开课,但实际上那些都是讲hadoop的原理,并没有讲怎么用,尴尬……
感觉以后只能结合任务,再来学习hadoop了。
下午去翻了翻sklearn的一些知识。
2017年5月3日 19:15:02
早上在做电子商务的作业,写了个京东的动态爬虫,抓了抓手机的参数。
下午当了一两个小时的人肉标记师,标了数据交过去,好像结果不太理想,mentor让我构造query去检查一下什么的。
然后我就把我之前的爬虫改了改,准备跑更多的数据出来,于是就扔在本地一直跑了。(公司的开发机并不能连外网。。
我顺手和某个人组队去玩了下腾讯的算法大赛,xjb处理了下数据,拿gdbr取跑了跑,log loss跑出来是0.24,感觉还是蛮好的。
我给我同学推销我司的5折爱奇艺的时候,他以为我号被盗了,差点就把我拉黑了,阿西吧(x
2017年5月4日
早上一来,就发现爬虫跑完了,比之前跑的数据多了400%,感觉很强。
然后鼓捣腾讯的算法比赛,找了个magic feature,loss 跑到了0.12,感觉也很强。
中午去听李彦宏演讲,见证了新使命的诞生,顺手拿了本书,虽然感觉自己不会读。。
下午就做分层,造query。做完了,就去kaggle找了个算法比赛,把腾讯那边的比赛代码拿过去用了下,不过结果不太理想,感觉自己还需要努力。
2017年5月5日
一早上都在人肉标数据,终于把这件事儿给干完了。
下午我觉得我在搜索组,不能浪费了这个资源,于是找了个百度内部的搜索框架公开课,把搜索框架大概的看了一遍。
至少知道了百度的搜索的框架是什么,如果我要做搜索引擎,究竟应该怎么做什么的。
下班的时候,陪着学长去打台球,结果没位置,就直接滚回去了。
这周过的还是蛮好的吧。
2017年5月8日 18:49:55
早上在干琐事,把qscoj的首页更新了,把cf的题解做了。
下午把爬虫这件事儿好像应该是弄完结了吧。
然后把腾讯的傻逼比赛调了调参数,弄到了0.11大关。
用公司安装xgboost,死活安装不上去,真是太气。。。
晚上去度学堂学技术把。
2017年5月9日 19:19:23
今天一天好像都在打杂,都在忙一些杂事,虽然自己确实在写代码,但是好像这些事儿学不到任何东西。。。
今天看到了hadoop是怎么用的了,感觉好像是有点简单呀,至少使用难度非常低。。。
2017年5月10日
今天好像啥都没学会?诶不对,腾讯算法大赛混了件T-shirt。
看了下bs的一些教程,但是完全看不懂啊,我觉得这玩意儿没人讲,就很难看懂的= =
自己看了百度内部的人脸识别的教程,结果是教人如何使用API= =
2017年5月11日
GTMD内部调试工具,这个怎么能写的这么烂?第二次和第一次调试出来的结果还不一样???难道我每次都得调试四五次,然后取最好的吗???GTMD百度,贼气
今天学会了xgboost。
早上造query,下午边造数据边跑腾讯算法大赛的模型,晚上专心调整参数。
2017年5月15日
早上没什么事儿干,就把腾讯模型重新跑了一遍,哇,玩了一早上提升了0.004的成绩,真TM棒。
我搞不懂那个腾讯比赛了,我每次都在进步,排名却越来越低,哎哟,心态炸了,心疼自己……
下午标数据,感觉。
晚饭吃的沙拉,感觉就是在吃草,看着像草,闻着像草,吃着也像草。我觉得美帝人民居然天天都吃这玩意儿,果然是生活在水生火热之中。
晚上拿xgboost,把kaggle的菜B比赛全部跑了一遍。
2017年5月16日
早上不停的标数据。
下午不停的跑模型。
晚上跑模型。。。
回家玩手游。。。
好颓废呀。。。
2017年5月17日
出题出题,出玲珑杯的题目中。。
早上写了一早上的标程
下午老大给了我几亿的数据,让我从这些数据中筛选出一些东西来。。
Emmmmmmmmmmmmmmmmmmmmmmmmmmmmm
我感觉我就是在大海捞针呀。。。
手动玩了玩其中的200W数据,筛除了2000个,于是我只要重复这样筛选大概200次好像就做完了,真强。
晚上看电影
2017年5月19日
早上加中午出题,把玲珑杯糊弄过去了
下午大海捞针
晚上看公开课,学会了一些机器学习的奇淫技巧(x
2017年5月24日 17:19:19
好像一直忘记写了。。。
这几天在弄爬虫,标数据。
让我想办法,找到XX的官网数据,这简直是大海捞针。。。。
然后出完了玲珑杯的题目。
玩腾讯的傻逼比赛。
机器学习从入门到跑路。(x
以及每天晚上回去都在赶学习的作业T T
2017年5月31日 15:20:53
好像还是忘记写了,一直在大海捞针,划水上班……
2017年6月14日
完全忘了这个了。。
大海捞针弄完了,接了个新任务,任务大概就是要实现一个简单的搜索引擎。
query -> query进行分词 -> 计算每个单词在url出现的权重 -> 分词结果进行合并得到query权值 -> 权值排序
不过这个里面的第二步和第三步都已经被实现了,我只需要实现1,4,5这三部分就好了。
总结
百度里面我确实由于是短期实习,所以并没有接触到比较长线的项目,接触的大概都是一些无关紧要,体力活偏多的东西。
不过我仍然学到了很多,非常感谢在百度的前辈。
印象比较深的就是跟着伟哥做的一个酒店相关数据收集的项目,虽然这个项目我觉得很傻逼(x。但是我学到了,做事情一定要做彻底,自己确定无误之后,再去上交,以及遇到不懂的问题的时候,一定要及时和自己的leader沟通,不要自己闷着……
在百度里面,跟着铁头娃做了一个机器学习的比赛,让我彻底入了机器学习的门,非常感谢铁头娃的不离不弃,到死都没有抛弃我这个拖油瓶。
以及熟悉了大公司的流程,也开阔了眼界,还趁着去了青岛旅游了一趟。这也是人生第一次看到海!
不得不说,百度食堂真的很好~
从后面来看,我应该是基本达到了最初自己定下的两个目标:了解搜索引擎,学习机器学习。
感谢骁哥推荐的一本搜索引擎架构的书,读了之后收获良多。
机器学习我觉得我也成为了一个调包侠了(x
再次感谢前辈们,青山不改,绿水长流,日后江湖相见,自当杯酒言欢,咱们就此别过。
----------------------------------分界线!!!!!!-------------------------------------
初步目标:找到一份工作!!!!
2017年7月12日
百度实习已经离职了,现在到了今日头条
今天是头条的第一天上班,leader给了我一个(超级超级大的)代码库,让我先看一天
然后我把git和vimrc都配置了
今日头条比较好的就是公司食堂是免费的,空调温度比百度的温度低一点,好评!
而且电脑发的是最新的macpro,感觉超爽!
2017年7月13日
继续读代码,找leader把项目的业务流程熟悉了一遍。
不过真的很想吐槽啊,几万行的代码,注释不超过十句。。。全是c++,这怎么看= =【和别人讨论了一下,我感觉是我的C++姿势水平太低
晚上帮人做了一下笔试题,感觉自己宝刀未老(x
2017年7月14日
今日头条请假了,去百度把离职彻底弄完了,和他们还一起吃了一顿午饭。
比较好玩的事情,我交接离职信息的时候,发现管这事儿的人不在,然后我就打电话给她。
然后我bb了一会儿我交接的信息,然后她告诉我:“那个 我也离职了,你要不找XXX吧。”
对了,走之前,我去百度内部的超市,买了一个百度的卡套,算是留给自己的纪念了吧~
2017年7月16日
看一天代码,不过效率很低,大概是因为自己蠢吧
然后顺便把google的笔试做了,最后的排名还可以