最近几年很少看英语,最近整点东西,忽然觉得看英文文章的能力下降,必须重新温习加强下,有关英文的一些好的资料也会在本贴中持续更新,加油。
对于技术来说,英文能力的下降意味着和最新的技术有了隔阂!!
用以下 小故事来激励自己:
一人想练盖世武功,师傅让他天天拍水缸。拍了一周特无聊,师傅说"继续"…;他又拍了一个月要崩溃,师傅还说"继续"…他又拍了半年,心想这个老头骗我,老子我不练了,拂袖而去。
回家,拍门,一掌,门碎。
弟子哭,回山中长跪。
什么叫相信?
“相信”是指未看见任何未来时,你仍旧坚持!将心注入,使命必达! 从此刻起,用相信的力量去做事,你的梦想一定会实现!
反思:坚持
子贡问曰:“乡人皆好之,何如?”子曰:“未可也。”“乡人皆恶之,何如?”子曰:“未可也。不如乡人之善者好之,其不善者恶之。”
【译文】 子贡问孔子说:“全乡人都喜欢、赞扬他,这个人怎么样?”孔子说:“这还不能肯定。”子贡又问孔子说:“全乡人都厌恶、憎恨他,这个人怎么样?”孔子说:“这也是不能肯定的。最好的人是全乡的好人都喜欢他,全乡的坏人都厌恶他。”
反思:在公司里这个评价标准也很恰当
相关学习资料:
spark api 官方地址:
http://spark.apache.org/docs/1.2.1/api/java/
关注:
- GradientBoostedTreesModel ,在评分中可以使用二元分类,评价指标采用Lift,F_1和AUC
- RandomForestModel 评分中通过对所有的决策树进行加总来预测新的数据(回归时采用平均),也有分类场景采用多数投票,
python中随机森林可以实现:RandomForestClassifier
http://www.tuicool.com/articles/euYfYjM
随机森林的评价:
缺点:
- 随机森林在解决回归问题时并没有像它在分类中表现的那么好,这是因为它并不能给出一个连续型的输出。当进行回归时,随机森林不能够作出超越训练集数据范围的预测,这可能导致在对某些还有特定噪声的数据进行建模时出现过度拟合。
- 对于许多统计建模者来说,随机森林给人的感觉像是一个黑盒子——你几乎无法控制模型内部的运行,只能在不同的参数和随机种子之间进行尝试。
Spark MLlib实现的广告点击预测–Gradient-Boosted Trees
https://my.oschina.net/u/2605101/blog/608842
训练和测试数据使用KaggleAvazuCTR比赛的样例数据