数据挖掘实践
莉莉兹
这个作者很懒,什么都没留下…
展开
-
Fast.ai: Practical Deep Learning for coders 课程学习笔记:Part1 Lesson1 (Lesson0)
这节课是Fast.ai项目的一个介绍,介绍了课程制作者的一些理念、教学的想法和一部分关于深度学习的概念性的描述,非常休闲。可以当作一个谈话节目来看。原创 2017-09-07 15:49:27 · 1722 阅读 · 0 评论 -
浅度讨论:Deep Learning 模型的迁移
对很久以前和近期一批业余实验的几点总结,依然是唠嗑的形式。 水平和精力有限,欢迎讨论。一、Hinton 的预言Deep Learning 成为一种现象大约是在2014年以后。2016年谷歌的 AlphaGO 应该被列入史上最成功的营销案例。 在 Deep Learning 的 “Hinton 时代”(约2006~2014),Hinton 常提的一种训练模式,是 pretrain-fin...原创 2018-08-27 18:18:58 · 1462 阅读 · 0 评论 -
TapTap 评论爬取、分类和基于 Attention 的可视化
结构: -- `cache` //存放中间缓存文件。做完全套占空间其实还挺多的,扒下来60MB的数据楞有5个G的缓存 -- `data` //合并单个文件之后得到的所有评论。大概有18万条。 -- `playground` //由于比较菜很多步骤是在 Notebook 边实验边写的,包括合并数据啊简单统计啊之类的。还有作图 -- `spider` //爬虫代码。跟上一个项目一样 -...原创 2018-08-14 11:52:57 · 5403 阅读 · 1 评论 -
BDCI2017 360 赛题数据上的一点拓展实验
———– 没干货预警———————— 没干货预警———————— 没干货预警———————— 没干货预警————- 前段时间忙里偷闲,参考第三名大佬 https://github.com/fuliucansheng/360 的代码,重做了一部分实验,结果可以看几个 Notebook 里的输出记录。非常有意思。为了节省时间,训练数据随机抽了初赛 5w、复赛 6w,也就是各取十分之一后合成 11...原创 2018-07-31 18:55:55 · 393 阅读 · 0 评论 -
Fast.ai 课程笔记: Dogs VS. Cats 实践
Fast.ai 的 Jeremy Howard 等人开发的 Deep Learning 课程,是我见过最贴合实践,同时又注重应用最新、最有效算法的入门课程。资源包括 fastai 库、视频、论坛和 一部分 Jupyter Notebook,视频在 USF (三藩大学)录制,实际上是 Jeremy 等人在 USF 做的一项数据科学学位课,所以授课期间会看到授课式的讲解和学生提问。今年公开了第二期...原创 2018-06-20 22:17:37 · 2662 阅读 · 2 评论 -
简单、强壮的情感、主题分类工具——NB-SVM
首先承认题目是来搞笑的。这篇笔记要记录的算法是 NB-SVM ,NB 是 Naive Bayes ,即把 NB 和 SVM 结合为一个算法来使用。 Kaggle 前面结束了一场 Toxic Comments Tagging(https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge),因为我啥都不会嘛,所以只能等比...原创 2018-04-22 12:08:54 · 3415 阅读 · 1 评论 -
随手记:机器学习工程师newbees最常犯的六种错误(Top 6 errors novice machine learning engineers make)
原博文来自 Medium,被北邮陈光老师发了在微博上。很久以前就收藏了但一直没看,今天拿出来发现文章很短而且颇具启发性,没经验的人在做数据类实践的时候确实想不到这些问题。 下面是我理解之后写的简单笔记,原文请自行搜索。 PS. Medium 是个好网站。1 使用默认的损失函数损失函数的作用是将当前问题转化为一个可求解的优化问题。损失函数需要建立在具体问题之上,对于一部分实际问题,已...原创 2018-03-28 11:38:20 · 293 阅读 · 0 评论 -
“人机大战”简单复盘
准备材料的时候又找了一下相关资源,发现已经有多个队伍公开方案或者开源代码了。&1. 第一名的经验分享:https://zhuanlan.zhihu.com/p/33243415 &2. 第三名的代码开源,模块分得很清晰,推荐阅读:https://github.com/fuliucansheng/360 &3. 一份代码和总结,没公开名次:https://zhuanl...原创 2018-04-02 11:05:14 · 452 阅读 · 0 评论 -
BDCI2017 “人机大战”参赛总结
UPDATE: 妈呀第三名开源了:https://github.com/fuliucansheng/360update: 比赛第一名的经验分享:https://zhuanlan.zhihu.com/p/332434150. 前言:这将是一篇又臭又长的日志明年就要找工作了。看到自己还是这么菜,心里挺着急的。一直琢磨着找几个比赛做一做,这样到时候简历不至于一片空白。但又总用...原创 2018-01-02 19:29:33 · 3017 阅读 · 0 评论