实习记录

准备每天下班前都会花几分钟总结一下实习的每一天干了什么。

本人是某大型农民工企业的人肉实习标记师,调参实习魔法师。

实习的最终目的:

1.学会该公司的核心技术,后端的搜索技术,至少得掌握的七七八八。

2.能够靠实习期间学会的技术,找到一个算法工程师的工作。

2017年4月26日

早上入职。

中午食堂还挺好吃的,就是感觉人好多的样子?

下午电脑有问题,拿给it服务部门重新配了个系统。

领到新手任务:熟悉一下shell脚本,重点可以看看awk。学习一下hadoop的使用,主要是streaming方式。

我找到的awk学习链接:http://coolshell.cn/articles/9070.html

2017年4月27日

今天的任务是学习hadoop。

中午简单给了我三个shell的练习题,让我练练手。

练习题链接:http://www.cnblogs.com/qscqesze/p/6774125.html

百度内部的度学堂非常赞,干货特别多。

新的akw学习地址:http://awk.readthedocs.io/en/latest/

晚上被拖去听核心技术去了,然后就和听天书一样,完全听不懂。。。。

半天,shell从入门到跑路。

2017年4月28日

让我写爬虫,写个傻逼爬虫

确定了自己的开发方式,本地写代码->gitlab->pull开发机->开发机调试的过程。

2017年5月2日 14:25:29

放了三天的假,回来一看原来的爬虫效率好低,重构了一下,效率一下子就上来了。

然后扔在那儿爬了一上午。

我就去看公司内部的度学堂,去看了几节Hadoop的公开课,但实际上那些都是讲hadoop的原理,并没有讲怎么用,尴尬……

感觉以后只能结合任务,再来学习hadoop了。

下午去翻了翻sklearn的一些知识。

2017年5月3日 19:15:02

早上在做电子商务的作业,写了个京东的动态爬虫,抓了抓手机的参数。

下午当了一两个小时的人肉标记师,标了数据交过去,好像结果不太理想,mentor让我构造query去检查一下什么的。

然后我就把我之前的爬虫改了改,准备跑更多的数据出来,于是就扔在本地一直跑了。(公司的开发机并不能连外网。。

我顺手和某个人组队去玩了下腾讯的算法大赛,xjb处理了下数据,拿gdbr取跑了跑,log loss跑出来是0.24,感觉还是蛮好的。

我给我同学推销我司的5折爱奇艺的时候,他以为我号被盗了,差点就把我拉黑了,阿西吧(x

2017年5月4日

早上一来,就发现爬虫跑完了,比之前跑的数据多了400%,感觉很强。

然后鼓捣腾讯的算法比赛,找了个magic feature,loss 跑到了0.12,感觉也很强。

中午去听李彦宏演讲,见证了新使命的诞生,顺手拿了本书,虽然感觉自己不会读。。

下午就做分层,造query。做完了,就去kaggle找了个算法比赛,把腾讯那边的比赛代码拿过去用了下,不过结果不太理想,感觉自己还需要努力。

2017年5月5日

一早上都在人肉标数据,终于把这件事儿给干完了。

下午我觉得我在搜索组,不能浪费了这个资源,于是找了个百度内部的搜索框架公开课,把搜索框架大概的看了一遍。

至少知道了百度的搜索的框架是什么,如果我要做搜索引擎,究竟应该怎么做什么的。

下班的时候,陪着学长去打台球,结果没位置,就直接滚回去了。

这周过的还是蛮好的吧。

2017年5月8日 18:49:55

早上在干琐事,把qscoj的首页更新了,把cf的题解做了。

下午把爬虫这件事儿好像应该是弄完结了吧。

然后把腾讯的傻逼比赛调了调参数,弄到了0.11大关。

用公司安装xgboost,死活安装不上去,真是太气。。。

晚上去度学堂学技术把。

2017年5月9日 19:19:23

今天一天好像都在打杂,都在忙一些杂事,虽然自己确实在写代码,但是好像这些事儿学不到任何东西。。。

今天看到了hadoop是怎么用的了,感觉好像是有点简单呀,至少使用难度非常低。。。

2017年5月10日

今天好像啥都没学会?诶不对,腾讯算法大赛混了件T-shirt。

看了下bs的一些教程,但是完全看不懂啊,我觉得这玩意儿没人讲,就很难看懂的= =

自己看了百度内部的人脸识别的教程,结果是教人如何使用API= =

2017年5月11日

GTMD内部调试工具,这个怎么能写的这么烂?第二次和第一次调试出来的结果还不一样???难道我每次都得调试四五次,然后取最好的吗???GTMD百度,贼气

今天学会了xgboost。

早上造query,下午边造数据边跑腾讯算法大赛的模型,晚上专心调整参数。

2017年5月15日

早上没什么事儿干,就把腾讯模型重新跑了一遍,哇,玩了一早上提升了0.004的成绩,真TM棒。

我搞不懂那个腾讯比赛了,我每次都在进步,排名却越来越低,哎哟,心态炸了,心疼自己……

下午标数据,感觉651210-20170515204059760-429636.png

晚饭吃的沙拉,感觉就是在吃草,看着像草,闻着像草,吃着也像草。我觉得美帝人民居然天天都吃这玩意儿,果然是生活在水生火热之中。

晚上拿xgboost,把kaggle的菜B比赛全部跑了一遍。

2017年5月16日

早上不停的标数据。

下午不停的跑模型。

晚上跑模型。。。

回家玩手游。。。

好颓废呀。。。

2017年5月17日

出题出题,出玲珑杯的题目中。。

早上写了一早上的标程

下午老大给了我几亿的数据,让我从这些数据中筛选出一些东西来。。

Emmmmmmmmmmmmmmmmmmmmmmmmmmmmm

我感觉我就是在大海捞针呀。。。

手动玩了玩其中的200W数据,筛除了2000个,于是我只要重复这样筛选大概200次好像就做完了,真强。

晚上看电影

2017年5月19日

早上加中午出题,把玲珑杯糊弄过去了

下午大海捞针

晚上看公开课,学会了一些机器学习的奇淫技巧(x

2017年5月24日 17:19:19

好像一直忘记写了。。。

这几天在弄爬虫,标数据。

让我想办法,找到XX的官网数据,这简直是大海捞针。。。。

然后出完了玲珑杯的题目。

玩腾讯的傻逼比赛。

机器学习从入门到跑路。(x

以及每天晚上回去都在赶学习的作业T T

2017年5月31日 15:20:53

好像还是忘记写了,一直在大海捞针,划水上班……

2017年6月14日

完全忘了这个了。。

大海捞针弄完了,接了个新任务,任务大概就是要实现一个简单的搜索引擎。

query -> query进行分词 -> 计算每个单词在url出现的权重 -> 分词结果进行合并得到query权值 -> 权值排序

不过这个里面的第二步和第三步都已经被实现了,我只需要实现1,4,5这三部分就好了。

总结

百度里面我确实由于是短期实习,所以并没有接触到比较长线的项目,接触的大概都是一些无关紧要,体力活偏多的东西。

不过我仍然学到了很多,非常感谢在百度的前辈。

印象比较深的就是跟着伟哥做的一个酒店相关数据收集的项目,虽然这个项目我觉得很傻逼(x。但是我学到了,做事情一定要做彻底,自己确定无误之后,再去上交,以及遇到不懂的问题的时候,一定要及时和自己的leader沟通,不要自己闷着……

在百度里面,跟着铁头娃做了一个机器学习的比赛,让我彻底入了机器学习的门,非常感谢铁头娃的不离不弃,到死都没有抛弃我这个拖油瓶。

以及熟悉了大公司的流程,也开阔了眼界,还趁着去了青岛旅游了一趟。这也是人生第一次看到海!

不得不说,百度食堂真的很好~

从后面来看,我应该是基本达到了最初自己定下的两个目标:了解搜索引擎,学习机器学习。

感谢骁哥推荐的一本搜索引擎架构的书,读了之后收获良多。

机器学习我觉得我也成为了一个调包侠了(x

再次感谢前辈们,青山不改,绿水长流,日后江湖相见,自当杯酒言欢,咱们就此别过。

----------------------------------分界线!!!!!!-------------------------------------

初步目标:找到一份工作!!!!

2017年7月12日

百度实习已经离职了,现在到了今日头条

今天是头条的第一天上班,leader给了我一个(超级超级大的)代码库,让我先看一天

然后我把git和vimrc都配置了

今日头条比较好的就是公司食堂是免费的,空调温度比百度的温度低一点,好评!

而且电脑发的是最新的macpro,感觉超爽!

2017年7月13日

继续读代码,找leader把项目的业务流程熟悉了一遍。

不过真的很想吐槽啊,几万行的代码,注释不超过十句。。。全是c++,这怎么看= =【和别人讨论了一下,我感觉是我的C++姿势水平太低

晚上帮人做了一下笔试题,感觉自己宝刀未老(x

2017年7月14日

今日头条请假了,去百度把离职彻底弄完了,和他们还一起吃了一顿午饭。

比较好玩的事情,我交接离职信息的时候,发现管这事儿的人不在,然后我就打电话给她。

然后我bb了一会儿我交接的信息,然后她告诉我:“那个 我也离职了,你要不找XXX吧。”

对了,走之前,我去百度内部的超市,买了一个百度的卡套,算是留给自己的纪念了吧~

2017年7月16日

看一天代码,不过效率很低,大概是因为自己蠢吧

然后顺便把google的笔试做了,最后的排名还可以

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值