短文一篇:坐标下降/K-means算法收敛性

查了一下网上的收敛性证明,看的我头大,我觉得原因就是那些博客都是抄来抄去的,理解的也不一定到位。 此处来简单清晰的证明一下,原理就用数学上的单调收敛定理之一:举个例子,如果一个实数序列是递减且有下界,则它的最大下界就是它的极限。 单调收敛定理的证明,数学教材上(数理统计相关的书应该有)。 换句话说...

2019-08-13 14:20:14

阅读数 8

评论数 0

常见linux操作、spark上切词方式等

常见linux操作、spark上切词方式等。 自己的笔记本,文档不断更新,实习小同学自取。

2019-07-24 17:21:55

阅读数 48

评论数 0

机器学习通俗易懂系列之trainingData

有监督学习的样本,在尽量少人工标注的情况下,利用各种半监督、无监督算法进行样本标记;在有了labeled data之后,根据测试集表现,调整labeled data比例/清洗label,生成优质训练集

2019-07-23 20:17:02

阅读数 33

评论数 0

机器学习通俗易懂系列之Word2vec

本来工作后比较懒,很久不写博客了,因为实习小同学时不时问到一些问题,网上的资料比较分散、不够通俗透彻,决定重新开启这个系列,这一篇是word2vec

2019-07-17 15:34:08

阅读数 27

评论数 1

文本分类+机器学习浅谈?

0.引言 开门老话:如有雷同算我抄你的,私信;我就是给自己做个笔记,顺带如果能帮到别人算积德行善;文章通俗风格,难免不严谨,大家意会即可;严谨的可以去找论文推导公式看书.… 现在,随处可见的深度学习课程,一抓一大把的github与博客,什么CNN、LSTM、GRU、Attention,各种“几行实...

2019-01-18 16:25:43

阅读数 225

评论数 2

spark使用中的一些总结-进阶版

太久没写博客了,我,回来了。 忙完毕业,写点啥呢,写点实习中的东西吧,主要关于spark的使用相关,相当于之前spark-scala的进阶版?惯例,我主要是做个笔记自己看的,如有雷同,算我抄你的。 rdd与dataframe选哪个用 dataframe的几个操作 一些环境参数的配置与subm...

2018-07-04 14:50:10

阅读数 768

评论数 1

好久不更新博客,关于spark-scala上开发的总结

很久一段时间没有更新博客了,因为实验室项目(我真不是学cs的)的原因耽搁了一阵,主要在实习的地方做一个基于spark的大流量自然语言处理的项目,这里主要是一些注意事项和总结,不分先后:1. 对于共享变量举个例子,你的一个模型是LR或者是其他,那么矩阵系数w是一个大矩阵,如何将这个矩阵放到每个exe...

2017-11-25 22:08:38

阅读数 483

评论数 2

一点笔记,好记性不如烂笔头

最近电脑的硬件革新了一波,但还是留瞎了windows系统,因为word、visio、mathtype有时候得用,毕竟有时候合作的人还是windows为主,好记性不如烂笔头(致敬炅炅) 硬件 1)cpu有内置显卡,主板上插入独显后记得设置显卡优先级; 2)买cpu的时候注意和主板、内存的搭配,如...

2017-10-08 20:57:42

阅读数 351

评论数 2

linux下xgboost、python版本、tensorflow_GPU的一些小事情

最近要搬实验室的砖,博客不怎么更新,可能到11月继续开始跟新,这次就说说最近的一些小问题,python版本的事情,和xgboost和tensorflow安装相关;还有tensorflow上GPU的使用

2017-09-24 15:23:03

阅读数 978

评论数 0

日记:一个大坑,关于python的sort和sorted

关于python的sort和sorted,还有圆周率π估计的原创小算法

2017-08-27 21:00:33

阅读数 199

评论数 0

这次的主题是SVM,大体还可以,对偶那里日后补充

实在不想latex敲公式,我在白纸上写了拍照传上来,凑合着看吧哎哟喂,多图预警,字丑预警(一万年不写字了)! 大家都知道SVM是寻找最大间隔,为什么?我没研究过风险理论,一般这么说,间隔越大,分类错误概率的上限越低,直观来说,分类器鲁棒性越强。那个上限好像是和最大间隔成反比,公式我忘了……如何寻找...

2017-08-20 13:55:08

阅读数 308

评论数 0

二叉树算法Python(二)+机器学习概念问题(二)

前言:以前有一个疑问,世上这么多知识,怎么学的玩?这么多算法,怎么记得住?后来发现,不在于你去记多少,而是你在理解和运用过程中形成的思维能力和习惯,这个很有价值。最近的博客可能每天都有点小更新,算是日记一样的吧,今天是二叉树(二)和机器学习概念问题(二),二叉树层次遍历、镜像、复原,PCA、SVD

2017-08-13 23:15:41

阅读数 288

评论数 0

无意中看到一些机器学习的问题,顺便解释下(一)

前言: 我不喜欢听也不喜欢说一些术语,知识本身不是那些装X的术语,而是背后的逻辑关系与内涵。 一个人真正懂得某项技术的标志应该是深入浅出,能够以各种语言说给不同知识级别的人听,并且能够根据环境运用自如。 无意中看到关于机器学习的概念题目,这里顺便解释下,尽量通俗

2017-08-09 01:00:21

阅读数 214

评论数 1

二叉树的各种算法(一)python

即将进入秋招,楼主后续会复习一些数据结构算法题目python版本+机器学习主流算法的原理及推导,有空更。今天是关于二叉树元素添加(队列实现),前序、中序、后序遍历的递归与栈实现,最大深度与最大距离的递归实现PS:楼主大致就用了一个例子测试了下,暂时没有毛病,若有bug私信或评论我修改,如有雷同,就...

2017-08-07 23:09:53

阅读数 981

评论数 1

通俗、有逻辑的写一篇说下Xgboost的原理,供讨论参考

初看Xgboost,翻了多篇博客发现关于xgboost原理的描述实在难以忍受,缺乏逻辑性,写一篇供讨论。——以下是抛砖引玉。 观其大略,而后深入细节,一开始扎进公式反正我是觉得效率不高,还容易打消人的积极性。首先说下决策树 决策树是啥? 举个例子,有一堆人,我让你分出男女,你依靠头发长短将人群...

2017-07-25 11:22:25

阅读数 63478

评论数 35

接上篇,CNN在短文本分类中的应用遇到的一些问题/GPU/cuda/tensorflow

主要记录一些用CNN在文本分类(tensorflow)时遇到的问题有一些是模型算法问题,还有一些是工程问题: 首先,说下双gpu的安装过程(电脑组装)中的坑经历以及cuda、cudnn安装时的情况,以及tensorflow官网上不去的情况,反正好多坑啊!接着,会说下个人对VGG、GoogLeNet...

2017-07-18 18:08:01

阅读数 1101

评论数 0

textCNN在tensorflow上的故事——记一个tf入门者的学习之路

背景这篇博客主要用来记录一个从不会tensorflow到第一个project(textCNN—中文短文本分类)正式开张的故事,用来与同样刚入门tf的童鞋交流,大神就不必看了

2017-07-01 00:27:01

阅读数 11731

评论数 11

初学者的CNN搭建示例(torch,cifar10数据集)

初学者的CNN搭建示例(torch,cifar10数据集)前言: 之前一直眼高手手低,哦是懒,也就是偶尔翻翻书,不怎么摸代码更不用说project了。 本硕都是电气,硕士快结束喜欢上AI这东西,半路出家就搞起了机器学习,原因呢很偶然。 三月份还没写过二分查找,五月面试的时候面试官夸我的python...

2017-05-27 18:27:39

阅读数 5019

评论数 2

剑指offer中把数组排成最小数之归并排序实现(python 3.5.2)(附上归并和不开新数组的快排)

最近恰好写了归并排序和快速排序的python实现,将剑指offer中的一道题目“数组排成最小数”实现,个人觉得比较简洁,在此做个记录,欢迎讨论,不喜勿喷,顺便附上归并排序和不开外数组的快排代码。

2017-05-15 14:11:25

阅读数 379

评论数 0

纪念我的第一篇CSDN博客-mac系统下cplex和yamip的配置以及在matlab中的调用

个人在mac上(已有matlab)安装配置cplex和yalmip,最后运行程序文件的一点小经验,不喜勿喷,谢谢

2017-05-14 17:30:46

阅读数 5315

评论数 15

提示
确定要删除当前文章?
取消 删除