滚滚的纸盒子-CSDN博客

原创关于“调包”，职业调包侠在此【update ++】！

1.“铲子”的经验、学习记录，不定期update【接上】7）自编码器结论：用来压缩特征自编码器模型主要由编码器（Encoder）和解码器（Decoder）组成，其主要目的是将输入xxx转换成中间变量yyy，然后再将yyy转换成 x~\tilde{x}x~，然后对比输入xxx和输出x~\tilde{x}x~使得他们两个无限接近。比如建立一个MSE的loss，然后优化这个loss。其实就是无监督的一个embedding另外，和PCA这种思想也是，有损压缩，尽量信息损失少8）无监督文本embeddi

2021-06-24 18:17:58 484 1

原创关于“调包”，职业调包侠在此！

0.个人思考做算法策略的同学，大致可以看做两类:一类是“卖铲子”的，也就是“造轮子”的，比如Xgboost、tf、keras、pytorch等各种包；一类是“用铲子的”，也就是“调包侠”，比如用各种轮子做“搜广推”的；并不是说谁比谁高贵，分工尔。有一些“用铲子”的，被人说“调包侠”，不开心了，也开始把精力分散去“抄轮子”，做一些重复性的工作，就好像明明有“sort”函数可以直接用了，得自己手写个“快排”表明自己的尊贵…心态还是不好。既然社会分工是提高生产效率的，那么“调包侠”就应该好好理解手头

2021-06-18 15:38:19 3145 2

原创 gbdt的一个笔记【“梯度提升”是一个通用的框架，GBDT是其中一员】

看了这一篇，更清晰了，下面截图做点笔记。http://aandds.com/blog/ensemble-gbdt.html方框1，本质就是每一轮弱学习器，去拟合损失函数关于预测值的负梯度，迭代下去，损失越来越小，这里也就是核心所在了----“梯度下降”方框2，这里最速下降，有一个步长的最优搜索。这个地方其实在之前博客中，写gbdt、xgboost树生成流程的时候算过，并没有先算梯度、再寻优步长，而是作为一个整体算这一轮弱分类器的预测值。...

2021-05-18 14:33:16 274

原创最近一段时间做图像挖掘的3个经验mark一下【人脸、全图、形体】

1.判断一个人颜值好看不好看，截取“人脸部分”去训练模型，比整图要好。（这里贴下seetaface取人脸特征的脚本，部分函数是小伙伴写的）关键词：颜值，人脸部分import osos.environ["CUDA_VISIBLE_DEVICES"]="-1" #不使用gpuimport tensorflow as tf#配置seetafacesys.path.append('./seetaface')from seetaface.api import *init_mask = FACE_DE

2021-04-15 18:49:59 319

原创很久以前写的Xgboost有一些没写好，现在填坑_part1【xgboost是gbdt升级版】

无论是gbdt还是xgboost，以前我纠结拟合的是啥，后来才明白，优化才是核心。优化是核心1.先看GBDT功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入优化是核心GBDT也好，XGBOOST也好，目标就是寻找多棵树的预测结果

2020-11-23 14:53:41 446 1

原创我的轮子学习-part（2020-11）【人脸识别、物体检测】

我的机器学习（这次是搬轮子）-part（2020-3）文章目录前言一、1号轮子-人脸识别相关1.基于特征脸的传统方法2.基于深度学习的炼丹二、2号轮子-物体检测object dection1.思路1-RCNN系列2.思路2-YOLO系列三、轮子2人体 segmention+皮肤检测四、轮子2 操作web看开发机上面的图片开发五、Human activity recognition总结前言0. 以下两点内容与技术无关，关于自我认知而已1. 越来越清晰的自我定位：桥梁工作那些造优秀轮子的是大佬，比如

2020-11-16 15:19:26 483

原创我的机器学习-part（2020-2）【tf-server】

我的机器学习part（记录2020一次实践）0.引言1.环境配置：centos环境2.模型训练：resnet50、dt3.服务部署：docker、tf-server、tornado5.结语0.引言什么炫酷的模型都是手段而已，解决问题才是目的。国庆加班，做了个紧急项目，今天主要是记录机器学习在解决实际问题中的这一次经历。主要部分：（1）环境配置：这部分主要是同事来做，自己家里的Ubuntu是自己装的，公司的centos安装不一样，此处时间紧，分工配合，同事主配环境，我主作数据集、训练模型、搭建部分服

2020-10-10 15:28:50 660 1

原创我的机器学习-part（2020-1）【有监督/无监督、Spark+BigDL】

回望过去+看未来1.过去经历1.1 问题抽象1.2 特征工程2.强化学习1.过去经历个人理解，抛砖引玉，另外为了通俗，难免不严谨，会其意。大致分为有监督学习（如回归、分类）、无监督学习（如聚类、降维）、强化学习这3支，强化学习我暂时还没有亲身去玩，就不乱说，后续补上。首先，回归和分类其实一个问题，比如预测房价0~100000的某一个数值，你把房价切成几个区间，预测在哪个区间，就实现了回归和分类的转化。然后，实际中大部分问题是一个分类/回归问题，拿分类举例，你现在要对某产品的user进行使用目的分类

2020-08-28 13:25:56 953

原创几个例子，立点flag【python爬虫、多进程、spark-ml库等例子】

内心有点难受，还得想办法加油，人啊，就一辈子哟序言例子1 爬数据-python爬虫例子2.多进程multiprocessing例子3. spark里面ml库随便结尾序言1.首先还是那句话，如有雷同，当我抄你的。2.疫情影响，想出去玩也不行，有点抑郁。3.19年年底，换工作了，大的硬核技术上还没啥进阶的，还是工程落地解决实际问题为主了，多点经验罢了，这些事儿多少有丢丢boring。4.主要就是，利用机器学习思路来解决产品中实际的问题，比如预测流失、活跃、投诉等等，无非就是拆解问题、找特征、构建样本、

2020-06-19 15:27:13 687

原创发散阅读、拓宽思路【PageRank、Tf-Idf、协同过滤、分布式训练、StyleTransfer、Node2vec】

刚工作一年，做的内容算是比较单一，基本是NLP相关，当然主流的算法、模型还是基本都了解，偶尔发散的看一些东西，算是留个印象，日积月累，可能以后会用到或者有所启发。PageRank+Tf-Idf+协同过滤+分布式训练+StyleTransfer+Node2vec。

2019-09-16 16:01:32 673

原创通俗易懂系列机器学习之手撕bert【bert论文、源码、实践都被我撸了】

优质的fine-tune工具

2019-08-24 09:29:37 1438

原创短文一篇：坐标下降/K-means算法收敛性

查了一下网上的收敛性证明，看的我头大，我觉得原因就是那些博客都是抄来抄去的，理解的也不一定到位。此处来简单清晰的证明一下，原理就用数学上的单调收敛定理之一：举个例子，如果一个实数序列是递减且有下界，则它的最大下界就是它的极限。单调收敛定理的证明，数学教材上（数理统计相关的书应该有）。换句话说，只要证明迭代算法：1）单调；2）有界，就可以说明目标函数最终一定会收敛，当然收敛数值不一定是这个界。...

2019-08-13 14:20:14 3776 2

原创常见linux操作、spark上切词方式等

常见linux操作、spark上切词方式等。自己的笔记本，文档不断更新，实习小同学自取。

2019-07-24 17:21:55 503

原创机器学习通俗易懂系列之trainingData

有监督学习的样本，在尽量少人工标注的情况下，利用各种半监督、无监督算法进行样本标记；在有了labeled data之后，根据测试集表现，调整labeled data比例/清洗label，生成优质训练集

2019-07-23 20:17:02 5557

原创机器学习通俗易懂系列之Word2vec

本来工作后比较懒，很久不写博客了，因为实习小同学时不时问到一些问题，网上的资料比较分散、不够通俗透彻，决定重新开启这个系列，这一篇是word2vec

2019-07-17 15:34:08 1053 3

原创文本分类+机器学习浅谈？

0.引言开门老话：如有雷同算我抄你的，私信；我就是给自己做个笔记，顺带如果能帮到别人算积德行善；文章通俗风格，难免不严谨，大家意会即可；严谨的可以去找论文推导公式看书.…现在，随处可见的深度学习课程，一抓一大把的github与博客，什么CNN、LSTM、GRU、Attention，各种“几行实现人脸识别”，诶，我说，导包复制粘贴谁还不会呢。个人深感现在学习成本低，浮躁心理明显，抓个PM让ta看...

2019-01-18 16:25:43 2213 3

原创 spark使用中的一些总结-进阶版

太久没写博客了，我，回来了。忙完毕业，写点啥呢，写点实习中的东西吧，主要关于spark的使用相关，相当于之前spark-scala的进阶版？惯例，我主要是做个笔记自己看的，如有雷同，算我抄你的。rdd与dataframe选哪个用dataframe的几个操作一些环境参数的配置与submit的问题一些语法细节的坑rdd与dataframe先说重点：尽量使用datafram...

2018-07-04 14:50:10 2369 1

原创好久不更新博客，关于spark-scala上开发的总结

很久一段时间没有更新博客了，因为实验室项目（我真不是学cs的）的原因耽搁了一阵，主要在实习的地方做一个基于spark的大流量自然语言处理的项目，这里主要是一些注意事项和总结，不分先后：1. 对于共享变量举个例子，你的一个模型是LR或者是其他，那么矩阵系数w是一个大矩阵，如何将这个矩阵放到每个executor，方便计算和处理，目前我是用的是driver读入数据，然后broadcast，然后在map里面

2017-11-25 22:08:38 759 1

原创一点笔记，好记性不如烂笔头

最近电脑的硬件革新了一波，但还是留瞎了windows系统，因为word、visio、mathtype有时候得用，毕竟有时候合作的人还是windows为主，好记性不如烂笔头（致敬炅炅）硬件 1）cpu有内置显卡，主板上插入独显后记得设置显卡优先级； 2）买cpu的时候注意和主板、内存的搭配，如针脚、支持内存频率等等； 3）同样的textCNN的代码，在我更新一波主板（12年的板子换成msi z

2017-10-08 20:57:42 634 2

原创 linux下xgboost、python版本、tensorflow_GPU的一些小事情

最近要搬实验室的砖，博客不怎么更新，可能到11月继续开始跟新，这次就说说最近的一些小问题，python版本的事情，和xgboost和tensorflow安装相关；还有tensorflow上GPU的使用

2017-09-24 15:23:03 1821

原创日记：一个大坑，关于python的sort和sorted

关于python的sort和sorted，还有圆周率π估计的原创小算法

2017-08-27 21:00:33 373

原创这次的主题是SVM，大体还可以，对偶那里日后补充

实在不想latex敲公式，我在白纸上写了拍照传上来，凑合着看吧哎哟喂，多图预警，字丑预警（一万年不写字了）！大家都知道SVM是寻找最大间隔，为什么？我没研究过风险理论，一般这么说，间隔越大，分类错误概率的上限越低，直观来说，分类器鲁棒性越强。那个上限好像是和最大间隔成反比，公式我忘了……如何寻找最大间隔，听上去就是一个最优化，满足分类正确（约束条件s.t.）情况下的间隔最大化（max）问题1，大

2017-08-20 13:55:08 505

原创二叉树算法Python（二）+机器学习概念问题（二）

前言：以前有一个疑问，世上这么多知识，怎么学的玩？这么多算法，怎么记得住？后来发现，不在于你去记多少，而是你在理解和运用过程中形成的思维能力和习惯，这个很有价值。最近的博客可能每天都有点小更新，算是日记一样的吧，今天是二叉树（二）和机器学习概念问题（二），二叉树层次遍历、镜像、复原，PCA、SVD

2017-08-13 23:15:41 850

原创无意中看到一些机器学习的问题，顺便解释下（一）

前言：我不喜欢听也不喜欢说一些术语，知识本身不是那些装X的术语，而是背后的逻辑关系与内涵。一个人真正懂得某项技术的标志应该是深入浅出，能够以各种语言说给不同知识级别的人听，并且能够根据环境运用自如。无意中看到关于机器学习的概念题目，这里顺便解释下，尽量通俗

2017-08-09 01:00:21 460 1

原创二叉树的各种算法（一)python

即将进入秋招，楼主后续会复习一些数据结构算法题目python版本+机器学习主流算法的原理及推导，有空更。今天是关于二叉树元素添加（队列实现），前序、中序、后序遍历的递归与栈实现，最大深度与最大距离的递归实现PS:楼主大致就用了一个例子测试了下，暂时没有毛病，若有bug私信或评论我修改，如有雷同，就当我是抄你的

2017-08-07 23:09:53 1707 1

原创通俗、有逻辑的写一篇说下Xgboost的原理，供讨论参考

初看Xgboost，翻了多篇博客发现关于xgboost原理的描述实在难以忍受，缺乏逻辑性，写一篇供讨论。——以下是抛砖引玉。观其大略，而后深入细节，一开始扎进公式反正我是觉得效率不高，还容易打消人的积极性。首先说下决策树决策树是啥？举个例子，有一堆人，我让你分出男女，你依靠头发长短将人群分为两拨，长发的为“女”，短发为“男”，你是不是依靠一个指标“头发长短”将人群进行了划分，你就形成了一个

2017-07-25 11:22:25 82603 45

原创接上篇，CNN在短文本分类中的应用遇到的一些问题/GPU/cuda/tensorflow

主要记录一些用CNN在文本分类（tensorflow）时遇到的问题有一些是模型算法问题，还有一些是工程问题：首先，说下双gpu的安装过程（电脑组装）中的坑经历以及cuda、cudnn安装时的情况，以及tensorflow官网上不去的情况，反正好多坑啊！接着，会说下个人对VGG、GoogLeNet、ResNet等的理解，然后对tensorflow中name_scope、variable_scope、graph的感受

2017-07-18 18:08:01 2119

原创 textCNN在tensorflow上的故事——记一个tf入门者的学习之路

背景这篇博客主要用来记录一个从不会tensorflow到第一个project（textCNN—中文短文本分类）正式开张的故事，用来与同样刚入门tf的童鞋交流，大神就不必看了

2017-07-01 00:27:01 14675 7

原创初学者的CNN搭建示例(torch,cifar10数据集)

初学者的CNN搭建示例(torch,cifar10数据集)前言：之前一直眼高手手低，哦是懒，也就是偶尔翻翻书，不怎么摸代码更不用说project了。本硕都是电气，硕士快结束喜欢上AI这东西，半路出家就搞起了机器学习，原因呢很偶然。三月份还没写过二分查找，五月面试的时候面试官夸我的python用的溜、数据结构算法底子不错、而后实现了cifar10数据集测试集75%（还没有对数据做一些白化、旋转、

2017-05-27 18:27:39 7150

原创剑指offer中把数组排成最小数之归并排序实现（python 3.5.2）（附上归并和不开新数组的快排）

最近恰好写了归并排序和快速排序的python实现，将剑指offer中的一道题目“数组排成最小数”实现，个人觉得比较简洁，在此做个记录，欢迎讨论，不喜勿喷，顺便附上归并排序和不开外数组的快排代码。

2017-05-15 14:11:25 625

原创纪念我的第一篇CSDN博客-mac系统下cplex和yamip的配置以及在matlab中的调用

个人在mac上（已有matlab）安装配置cplex和yalmip，最后运行程序文件的一点小经验，不喜勿喷，谢谢

2017-05-14 17:30:46 9514 20

就俩字，咱们要做精通，不做熟悉