![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 59
小帅的私人空间
目标成为大牛,先踏实码代码。
展开
-
11.7KNN
跟着machine learn in action在重复造KNN轮子。有用sklearn实现KNN,还是人家的轮子好用。还学了: - numpy的矩阵用法http://mp.weixin.qq.com/s/FVI3zEp4it-fd99-3MU9vA - Readlines, read, realine等等区别, - 懂原理和写轮子还是很不一样的,工程能力弱鸡一个 - sklearn划分sk原创 2017-11-08 07:56:52 · 162 阅读 · 0 评论 -
1.15 python/pandas时间序列和ARIMA(1)
为了公司可能工作,把之前学的时间序列用python再整一遍。 - Python进行时间序列主要用到pandas statsmodels sklearn - pandas-datareader很有用,可以访问到yahoo 和googe finance, 还有世界银行和纳斯达克。 - tsfresh包进行序列模型特征提取,非常方便,好建模;比如异常检测模型ARIMA: ACF: 相隔一段时间的原创 2018-01-16 07:57:06 · 1514 阅读 · 1 评论 -
sklearn里面knn调参数以及分类器效果评估方法
当然文档写的很好了,多而全面, 我这里只是针对自己情况做个学习的记录 http://scikit-learn.org/stable/modules/neighbors.html#classification http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html...原创 2018-05-17 12:50:52 · 20378 阅读 · 1 评论 -
机器学习补漏之归一化
最近在公司里面做相关内容,发现许多理论并不坚固。归一化就是一个。1. 只能在训练集当中,然后应用到测试集上面。不能两部分一起归一化, 也不能各自用自己数据归一化。 因为我们默认两部分都有足够的数据,并且数据分布相同。当然最重要的是,测试集是不可以偷看的,更不要说计算这些统计数据。sklearn.preprocessing.StandardScaler方便把训练集上面的操作和数据对测试集也做...原创 2018-05-17 12:51:48 · 242 阅读 · 0 评论 -
博客笔记三: [Airbnb] data science的pipline,工业级的解决
https://medium.com/airbnb-engineering/using-machine-learning-to-predict-value-of-homes-on-airbnb-9272d3d4739d 作者是:Robert Chang1. Customer Lifetime Value (LTV)客户生命周期价值模型, 应用场景: At e-commerce c...原创 2018-05-18 23:11:02 · 585 阅读 · 0 评论 -
转载:「特征工程」与训练测试集合划分(原标题“警惕「特征工程」中的陷阱”)
博主按: 这是我转的第一篇文章,实在是因为欲罢不能,不转不行。说到心坎上去了。测试集训练集划分和训练中关系问题,在工作中常常遇到。自己于是思考了一下,在知乎上看了一个相关问答,不谋而合。直到看到本文,描述清楚有完整。不失为好的总结。警惕「特征工程」中的陷阱 知乎用户:微调 原文地址:https://zhuanlan.zhihu.com/p/33651227特征工程(Feature E...转载 2018-05-20 05:26:42 · 2758 阅读 · 3 评论 -
Automated(AutoML) Machine Learning 探索: TPOT文档阅读
http://epistasislab.github.io/tpot 花了半天时间探索自动机器学习工具包,主要探索了tpot,其他很著名的还有suto sklearn, datarobot(付费),还有基于java和图形界面的Auto-WEKA。更多见这里: https://www.evget.com/article/2017/10/30/27128.html概述: 采用遗传算法,g...原创 2018-05-22 01:09:39 · 1690 阅读 · 0 评论 -
博客笔记四: [Airbnb] word embedding改编,list embedding表达相似性用于推荐系统
原文标题:Listing Embeddings for Similar Listing Recommendations and Real-time Personalization in Search Ranking By Mihajlo Grbovic, Haibin Cheng, Qing Zhang, Lynn Yang, Phillippe Siclait and Matt Jones ...原创 2018-05-30 01:43:40 · 2514 阅读 · 0 评论 -
博客笔记五: [Airbnb] 信用卡欺诈的loss function设计
原文标题:Fighting Financial Fraud with Targeted Friction作者:David Press原文地址: https://medium.com/airbnb-engineering/fighting-financial-fraud-with-targeted-friction-82d950d8900e面对问题:别人使用偷来的卡,真正持卡...原创 2018-05-31 00:49:44 · 442 阅读 · 0 评论 -
博客笔记六: [Airbnb] 自动机器学习automated ml
原文标题:Automated Machine Learning — A Paradigm Shift That Accelerates Data Scientist Productivity @ Airbnb 原文地址:https://medium.com/airbnb-engineering/automated-machine-learning-a-paradigm-shift-that-ac...原创 2018-05-31 22:53:50 · 877 阅读 · 0 评论 -
博客笔记七: [Airbnb] 赢家诅咒在ab test的思考---为什么三个好的假设一起合作不如分开单干效果之和?
原文标题:Selection Bias in Online Experimentation Thinking through a method for the Winner’s Curse in A/B testing; 原文地址:https://medium.com/airbnb-engineering/selection-bias-in-online-experimentation-c3d...原创 2018-06-02 05:22:34 · 690 阅读 · 1 评论 -
机器学习工具包--待续
基础的pandas,sklearn等等就不说了,最近因为比赛,学了几个特别给力的工具。感觉世界被打开了。自动机器学习他们采用不同的办法,有的是给予进化遗传算法,有其他的。这里几个工具是把特征选择和调参都给包含了。功能很强大。 - TPOT,主要用这个,很强大 - AutoML - Auto-sklearn,特点就是与sklearn无缝对接。 - H2O,口碑也很好,不过没太常...原创 2018-07-14 06:07:23 · 864 阅读 · 0 评论 -
工具记录:最近学习机器学习加速工具
dask: 一开始是作为并行计算pandas dataframe使用的, 后来发现还很强大, 支持scikit, tpot等机器学习相关. 轻量化, 基于py社区(与之对应的是spark, 虽然有py版本, 但是本质是一个大而全的整个系统)numba:加速数学运算, 尤其原生计算和numpy计算, 特别支持挺多计算函数(random等)petastorm: uber支持的创建dataset的...原创 2019-03-03 08:28:04 · 320 阅读 · 0 评论 -
introduction dask
OverviewDASK provides multi-core and distributed parallel execution on larger-than-memory datasets.We can think of Dask at a high and a low levelHigh level collections: DASK provides high-level...原创 2019-07-16 03:44:54 · 255 阅读 · 0 评论 -
2018.1.6和大佬学python
今天继续写Parttime的NLP东西,找大佬改BUG,发现思维真的很强。我两天的东西,他两个小时给实现了,还更加漂亮。今天学到稀疏矩阵的处理,本来是太大内存leak了,后来大佬写了一个函数,加上write及时写入csv(我之前想的都是一定要先有data frame才可以写入),完美解决。过程就是代码行数增多再减少;最后非常的精简。一开始还要多线程,后来发现不太用的上。问他是否全面的学过Python原创 2018-01-06 13:45:07 · 176 阅读 · 0 评论 -
1.13《推荐系统实践》笔记(下)
两天一口气看完《推荐系统实践》,非常的爽,收获非常的大。作者不仅是技术性介绍,更是结合自己的商业理解。加上作者长时间的竞赛工作第一手经验,本书价值非常大!!!原创 2018-01-14 12:45:58 · 664 阅读 · 1 评论 -
11.8烦乱一天
try except else异常处理控制语句http://www.runoob.com/python/python-exceptions.html今天看CNN tensorflow,好难弄,然后被各种事情打断,烦躁的一天。原创 2017-11-09 11:17:58 · 138 阅读 · 0 评论 -
11.16CNN跑起来+opencv
CNN终于跑起来了, 之前跑不动是因为检测的时候把几千张test图片一口气全扔进去了。后来做了batch就好了。只是数据太好了,第一次还没怎么太多优化就已经99%准确率。接下来要对数据集进行一些补充和修改,更加鲁棒(总觉得鲁棒这个词比原词robust高大上啊哈哈)看opencv教程代码(不是源代码C++太弱),真是一个强大无比的库,还没入门,做图像处理opencv和dlib应该都是亲人吧。今天继原创 2017-11-18 02:32:10 · 1294 阅读 · 0 评论 -
11.17继续调opencv
opencv和dlib都是好给力啊,今天写了基本语句和操作。我的代码更规范了,应该不光只有我自己看得懂了。7个小时左右。原创 2017-11-18 15:33:38 · 128 阅读 · 0 评论 -
11.13时间序列还要看理论
今天搞时间序列作业做了8,9个小时。做了exponential 和 ariam,但是结果不是特别看得懂,有点奇怪。 加上昨天晚上熬夜到3点,今天果断晚上10点就撑不住了。用R语言。原创 2017-11-14 22:24:58 · 164 阅读 · 0 评论 -
11.18/19原始数据
结果跑出来太好了。轻轻松松就99%,完全没有提升的动力。大佬提醒了一下,可能是有问题的,人脸的招聘是自己采集的,虽然会调整光线对比度什么的,但是风格还是固定的;而作为对比的照片,umass官网找的人脸,做了dlib取脸操作,但是:因为不同场景,因而光线什么的更多变,取脸之后图片变得不非常清楚脸都是欧美脸作为改进: - 准备采集自己的生活照加进去,现有几百张照片;拍自己一些视频也可以截取原创 2017-11-20 08:01:50 · 182 阅读 · 0 评论 -
11.14TF-GPU+CNN论文
开心,今天安装tensorflowGPU版本,跑起来很开心。为了CNN最后人脸识别的大作业,最近看了好几篇论文,帮助最大的是CUN老爷子1990那篇和Alexnet那个。因为做的不是许多分类,并没有看凯明大牛残差网络。感觉可以先码代码做东西了,理论差不多了,在时间中学习!!!原创 2017-11-15 14:20:26 · 216 阅读 · 0 评论 -
11.29R-naive 和knn和雨哥
课堂作业,用R写。和小伙伴一起完成了naive bayes和knn作业。还是很不喜欢R语言,写起来很多不舒服。和雨哥聊,他让我看到干一行爱一行,老师要求R,自己就应该把R给学好。停止抱怨。雨哥是榜样,能把生活和学习都打磨的得很精致。不过是很努力的结果。今天明天完成决策树和逻辑回归题目,每题估计上百行代码,一开始感觉代码量还挺大。但是看了码农的小伙伴三个人一个project几千行代码,我觉得我的代原创 2017-11-30 00:57:02 · 174 阅读 · 0 评论 -
11.15tf-cnn旁边有大佬
继续人脸识别,看了几个小时代码,觉得自己进度好慢。特别是旁边有一个大佬,人厉害还非常努力,废寝忘食。他的项目是ai challenger 2017,调代码到深夜。最近才接触机器学习和深度学习,一两个月就开始刚场景识别的这个大比赛,已经做了很多优化很多工作。非常的羡慕。努力向他学习,踏实一点。还work-lift balance,假期出去浪。非常高效率。原创 2017-11-16 23:49:30 · 147 阅读 · 0 评论 -
12.9data mining教材不错
忙里偷闲,复习之余觉得老师选的教材挺不错的。重点在于通俗易懂。虽然搜游的例子几乎都是用XLMiner完成,没有Python后者R,但是理论部分讲的很清晰,有些艰深的推导省略了,需要的话可能要看其他资源,但是宏观上非常形象,非常清晰。毕竟联系代码的话网络上资源或者书籍资源就太多了。是不错的数据挖掘入门书籍,但也仅限入门。名字和链接在这里: Data mining for business analy原创 2017-12-10 12:47:17 · 196 阅读 · 1 评论 -
11.30decision tree&logostic rgression
老师最近太疯狂了,上半学期作业那么少,最近作业量那么多,每题都要写一两百行。真的做题做到头疼心累,今天还要继续赶DUE。有时候题目很模糊也是很心累。原创 2017-12-01 22:33:09 · 125 阅读 · 0 评论 -
11.22逼自己一下
最近学校在放假,学校比较空了,自己心也有点散。把最近几天todo-list写下来,免得跟风心散了。22-16号Data Mining作业4&5:R语言: Naive bayes;KNN; 评估predictive模型(RMSE等等), tree model 和逻辑回归一些题目。CNN项目数据集: Noise:完成爬虫——爬取大陆港台日韩男明星;同学参与(wanghui, wuhao) 我的原创 2017-11-23 01:08:37 · 187 阅读 · 0 评论 -
12.12 IE7275-Data Mining笔记
这学期学了Professor Sagar Kamarthi的Data Mining 。理论还讲的可以,挺清晰的。只是用R编程太累了。基本的分类算法和预测算法都有涉及,只是神经网络不可能细讲。无监督学习也涉及不多,只讲了collaborative filtering和association rule。 下面是笔记。 参考文献: Dat原创 2017-12-13 06:04:06 · 263 阅读 · 0 评论 -
12.4Homework#4_Deep Learning
这是我的Advanced data science and architecture的一次作业,也恰巧是项目的一部分。偷懒使用csdn的markdown来编辑,索性直接贴出来吧。代码没有贴出来。Option B: Use Deep Learning for analysis of your project data.Part A - Deep Learning model (40 points)F原创 2017-12-05 12:02:08 · 172 阅读 · 0 评论 -
12.5期末不要懒
一开始觉得时间序列做的不是很深,TA说已经很好了,优化的动力不太高,今天就比较懒散。人懒惰起来还真是无敌。 在做逻辑回归R语言作业,画lift图,决策树。 期末了,勤奋一点!原创 2017-12-06 14:51:36 · 139 阅读 · 0 评论 -
12.7复习期末+project
另一门课基本结束了,现在重点在data mining上面。这门课教了一些东西,虽然老师讲的不是特别细致,也没有把课表syllabus上完。期中考试不是很给力,希望期末给力一点。把大纲贴在下面。原创 2017-12-07 22:30:04 · 144 阅读 · 0 评论 -
1.13《推荐系统实践》笔记(上)
两天一口气看完《推荐系统实践》,非常的爽,收获非常的大。作者不仅是技术性介绍,更是结合自己的商业理解。加上作者长时间的竞赛工作第一手经验,本书价值非常大!!!原创 2018-01-14 12:39:56 · 6688 阅读 · 2 评论 -
Learning to Rank 笔记
最近公司业务需要,作了很少的研究。对于一类问题,尤其是模型问题,我觉得最重要是要明白input, model和output. 看了这篇觉得这个日本小哥讲的很好https://mlexplained.com/2019/05/27/learning-to-rank-explained-with-code/最开始LTR用在信息检索,就是根据搜索词找出搜索内容,并且order要最好,就是用户最有可能需要...原创 2019-09-25 09:46:23 · 276 阅读 · 0 评论