机器学习/深度学习
文章平均质量分 92
AI莉莉兹
这个作者很懒,什么都没留下…
展开
-
简单、强壮的情感、主题分类工具——NB-SVM
首先承认题目是来搞笑的。这篇笔记要记录的算法是 NB-SVM ,NB 是 Naive Bayes ,即把 NB 和 SVM 结合为一个算法来使用。 Kaggle 前面结束了一场 Toxic Comments Tagging(https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge),因为我啥都不会嘛,所以只能等比...原创 2018-04-22 12:08:54 · 3474 阅读 · 1 评论 -
对学习/理解 Word2Vec 有帮助的材料
之前面试被面到了,加上一直不是很理解词嵌入的工作方式,所以这段时间找了不少相关的资料想把这玩意儿搞明白。理解还是有限,就不自不量力自己写一篇了(就算写也是把已有的文章揉一揉,不敢说是自己的理解),把看过觉得比较有用的材料整理出来,作为一则记录。一篇英文的博客也做了类似的整理(http://textprocessing.org/getting-started-with-word2vec)。 本...原创 2018-05-03 15:59:44 · 306 阅读 · 0 评论 -
Word2Vec 学习心得
本文没什么干货,主要是前后看了大概一个星期,反复去读源码和解读文章,终于感觉这东西不那么云山雾罩了。同时也发现网上很多材料有点扯淡,99% 的博文不过是把别人的东西用自己的话说一下,人云亦云。好多人自己理解错了而不自知,实在是误人误己。我也不敢说理解得有多深,下面的内容甚至可能有自相矛盾的地方,所以阅读本文时请一定擦亮眼睛,认真思考。源码才是根本,作者那两篇论文感觉参考价值也不高。说到底,Machine Learning/Deep Learning 的价值在于实践,而实际开发的应用中经过大量的 tric原创 2018-05-12 15:57:54 · 1657 阅读 · 0 评论 -
Fast.ai 课程笔记: Dogs VS. Cats 实践
Fast.ai 的 Jeremy Howard 等人开发的 Deep Learning 课程,是我见过最贴合实践,同时又注重应用最新、最有效算法的入门课程。资源包括 fastai 库、视频、论坛和 一部分 Jupyter Notebook,视频在 USF (三藩大学)录制,实际上是 Jeremy 等人在 USF 做的一项数据科学学位课,所以授课期间会看到授课式的讲解和学生提问。今年公开了第二期...原创 2018-06-20 22:17:37 · 2740 阅读 · 2 评论 -
我的模型有多快?——深度学习网络模型的运算复杂度、空间占用和内存访问情况计算
前段时间看了几个笔试题,涉及 DNN 的模型复杂度,主要是参数量和计算复杂度的问题。当时搜了一下感觉中文网上的内容比较乱。刚好本文是对神经网络模型资源消耗情况的一篇介绍,就不自己写了,把关键内容做了一下编译。 原文见 http://machinethink.net/blog/how-fast-is-my-model/ 。深度网络的计算消耗是学术 paper 相对少见的话题。当然,早期网络精度...翻译 2018-07-11 16:12:04 · 29977 阅读 · 19 评论 -
BDCI2017 360 赛题数据上的一点拓展实验
———– 没干货预警———————— 没干货预警———————— 没干货预警———————— 没干货预警————- 前段时间忙里偷闲,参考第三名大佬 https://github.com/fuliucansheng/360 的代码,重做了一部分实验,结果可以看几个 Notebook 里的输出记录。非常有意思。为了节省时间,训练数据随机抽了初赛 5w、复赛 6w,也就是各取十分之一后合成 11...原创 2018-07-31 18:55:55 · 428 阅读 · 0 评论 -
TapTap 评论爬取、分类和基于 Attention 的可视化
结构: -- `cache` //存放中间缓存文件。做完全套占空间其实还挺多的,扒下来60MB的数据楞有5个G的缓存 -- `data` //合并单个文件之后得到的所有评论。大概有18万条。 -- `playground` //由于比较菜很多步骤是在 Notebook 边实验边写的,包括合并数据啊简单统计啊之类的。还有作图 -- `spider` //爬虫代码。跟上一个项目一样 -...原创 2018-08-14 11:52:57 · 5570 阅读 · 1 评论 -
浅度讨论:Deep Learning 模型的迁移
对很久以前和近期一批业余实验的几点总结,依然是唠嗑的形式。 水平和精力有限,欢迎讨论。一、Hinton 的预言Deep Learning 成为一种现象大约是在2014年以后。2016年谷歌的 AlphaGO 应该被列入史上最成功的营销案例。 在 Deep Learning 的 “Hinton 时代”(约2006~2014),Hinton 常提的一种训练模式,是 pretrain-fin...原创 2018-08-27 18:18:58 · 1532 阅读 · 0 评论 -
Machine Learning Yearning 要点笔记
Andrew Ng. 的新书终于出完了。薄薄一百多页的小册子,翻下来其实是一堆实操经验集合。感觉还是有一定借鉴意义的,按照我自己的理解简单地整理如下,也不展开说了。有过实际经验的肯定心里有数。新成果的驱动因素:数据,算力数据集的划分:val & testval & test 应当来自相同的分布how large? 足够区分算法之间的(精度)差异建立单一的评估指标,并通...原创 2018-10-06 11:39:26 · 432 阅读 · 0 评论 -
随手记:机器学习工程师newbees最常犯的六种错误(Top 6 errors novice machine learning engineers make)
原博文来自 Medium,被北邮陈光老师发了在微博上。很久以前就收藏了但一直没看,今天拿出来发现文章很短而且颇具启发性,没经验的人在做数据类实践的时候确实想不到这些问题。 下面是我理解之后写的简单笔记,原文请自行搜索。 PS. Medium 是个好网站。1 使用默认的损失函数损失函数的作用是将当前问题转化为一个可求解的优化问题。损失函数需要建立在具体问题之上,对于一部分实际问题,已...原创 2018-03-28 11:38:20 · 314 阅读 · 0 评论 -
“人机大战”简单复盘
准备材料的时候又找了一下相关资源,发现已经有多个队伍公开方案或者开源代码了。&1. 第一名的经验分享:https://zhuanlan.zhihu.com/p/33243415 &2. 第三名的代码开源,模块分得很清晰,推荐阅读:https://github.com/fuliucansheng/360 &3. 一份代码和总结,没公开名次:https://zhuanl...原创 2018-04-02 11:05:14 · 478 阅读 · 0 评论 -
线性判别分析简明入门教程
LDA是脑电信号分析中最常用的分类器之一。中文网站上详细讲该算法的文章不多,也大都没有代码。于是编译了一篇LDA的简单教程。已经征得了原作者授权。转载请勿删改原文信息。翻译 2017-07-29 11:05:31 · 11782 阅读 · 0 评论 -
Fast.ai: Practical Deep Learning for coders 课程学习笔记:Part1 Lesson1 (Lesson0)
这节课是Fast.ai项目的一个介绍,介绍了课程制作者的一些理念、教学的想法和一部分关于深度学习的概念性的描述,非常休闲。可以当作一个谈话节目来看。原创 2017-09-07 15:49:27 · 1771 阅读 · 0 评论 -
Batch Normalization 学习笔记
本文是对批标准化方法的一则学习笔记原创 2017-08-28 11:31:04 · 13046 阅读 · 2 评论 -
CS229 笔记:关于 Logistic Regression 的六个小问题
CS229 的一则学习笔记,梳理一下 logistic regression 的一些相关问题。原创 2017-09-20 17:22:26 · 2209 阅读 · 0 评论 -
配置windows客户端远程登录深度学习服务器
导师大手一挥给了块闲置的TitanX,加上毕业师兄留下的一台服务器级主机,花一天时间配了个深度学习环境出来。 实验室其他组有好几台这样的服务器。以前看人家测试代码都是自己电脑和服务器两头跑,心想这么搞看起来好土,把主机做好当个远程环境、在本机上run代码不就完了吗。 结果轮到自己配环境,还是查了好多文章。主要是对linux、Jupyter都一窍不通。 肯定有其他更简单美妙的实现方式。这里权做个原创 2017-09-05 11:50:06 · 9345 阅读 · 1 评论 -
BDCI2017 “人机大战”参赛总结
UPDATE: 妈呀第三名开源了:https://github.com/fuliucansheng/360update: 比赛第一名的经验分享:https://zhuanlan.zhihu.com/p/332434150. 前言:这将是一篇又臭又长的日志明年就要找工作了。看到自己还是这么菜,心里挺着急的。一直琢磨着找几个比赛做一做,这样到时候简历不至于一片空白。但又总用...原创 2018-01-02 19:29:33 · 3211 阅读 · 0 评论 -
一个项目的经验教训:关于打乱和拆分数据
最近因为某事要准备一点材料,刚好前段时间给导师做项目的时候遇到一个大坑,浪费了很多时间,所以就着这个问题顺便做点总结。传统的机器学习,即在深度学习流行之前的问题的一般处理流程通常是“预处理->特征变换->分类/回归”。即便现在深度学习似乎要统治业界,但要转换成这样的步骤,也不过是将“特征变换”与“分类/回归”合二为一而已,该做的预处理往往还是要做。《深度学习(Deep Learni...原创 2018-03-08 15:11:11 · 8770 阅读 · 22 评论 -
升级 CUDA 到 9.0、Tensorflow 到1.6
Update 注意,官方编译的 TF1.6 尚不支持 cuDNN 7.1.x,下载时请选择 cuDNN 7.0.x。Tensorflow 最新的 1.6 版本需要 CUDA9.0,原来装的是 8.0 。这就需要卸载一个、安装一个。 虽然 Linux 内核的系统下删除软件给人的印象好像直接删目录就可以,但 CUDA 牵扯太多系统层面的东西,所以官方如果有正式解决方案那肯定优先使用。官...原创 2018-03-25 15:48:47 · 13518 阅读 · 0 评论 -
多卡服务器下隐藏部分 GPU 和 TensorFlow 的显存使用设置
服务器有多张显卡,一般是组里共用,分配好显卡和任务就体现公德了。除了在代码中指定使用的 GPU 编号,还可以直接设置可见 GPU 编号,使程序/用户只对部分 GPU 可见。操作很简单,使用环境变量 CUDA_VISIBLE_DEVICES 即可。 具体来说,如果使用单卡运行 Python 脚本,则可输入CUDA_VISIBLE_DEVICES=1 python my_script.p...原创 2018-03-27 08:43:14 · 1748 阅读 · 0 评论 -
机器学习/深度学习入门资源整理v1.0
机器学习/深度学习入门资源整理。原创 2017-07-03 11:20:31 · 2274 阅读 · 1 评论