自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 数据挖掘的聚类算法

数据挖掘的聚类算法层次化聚类(树聚类算法)典型:BIRCH算法,CURE算法,NN算法定义:首先将每个样本看成单个簇,然后采取自下而上或是自上而下的策略,按照接近度来组合,形成类似树形的聚类结构。优点:根据距离或者相似度进行定义不需要预先制定聚类数可以发现类的层次关系缺点计算复杂度较高奇异值也能产生很大影响算法聚类结果可能成链状基于划分的聚类典型:K-means定义:挑选K个点,利用启发式算法对数据点做迭代,达到“类内的点都足够近,类间的点都足够远”的效果优点:简

2021-02-20 15:47:40 580

原创 多进程、多线程、协程 python

多进程、多线程(python)文章目录多进程、多线程(python)历史编译器、解释器、IDEGIL锁进程、线程、协程的利用多进程单任务单进程单任务多进程多任务多进程多线程问题​ 这周接到1个需求,项目经理觉得我这边构造数据太过缓慢,由于数据量过大,以前数据构造完后将其导入MPP,利用copy_from速度还是很快的,一般为10W/s。现在换成Kafka消息队列,又由于python库自带的原因(这个是组里大神告诉我的),无法像java开发利用list导数据,因此我只能一条一条以json的形式将数据放入消

2021-02-20 15:31:07 198

原创 异常检测

异常检测定义:识别不正常情况与挖掘非逻辑数据的技术,也叫outliers。前提:异常数据只占少数异常数据特征值和正常数据差别很大应用领域:CV领域:抖音发现违规视频数据挖掘:信用卡盗刷,支付宝,异常金额支出。模型无监督学习、AutoEncoder、GAN、矩阵因子分解半监督学习,强化学习hybrid(混种)、特征提取+传统算法单分类神经网路(MLM)统计学方法1. 3sigma/箱形图原理:远离3sigma(拉依达准则)数据概率低于0.01,认为这些数据为异常值缺

2021-02-20 15:29:20 1431

原创 Transfomer拆分

文章目录Transfomer拆分1. 背景知识1.1 seq2seq1.2 Attention2.正文2.1 Encoder-Decoder2.2 Embedding2.3 Positional Emcoding2.4 Encoder2.4.1 Clone2.4.2 Encoder_layer2.5 Decoder2.5.1 Decoder layer2.5.2 Mask2.5.3 Attention2.6 Generator3. 待究问题4. 参考链接4. 参考链接Transfomer拆分为了更好的学

2020-05-12 11:02:57 435 1

原创 THUCNews学习(CNN模型)

THUCNews文章目录THUCNews0、概述1、项目目标2、数据说明3、数据预处理3.1 获得词汇表3.2 句子向量化4、建模过程4.1 embedding4.2 CNN4.2.1 卷积层4.2.2 池化层4.2.3 全连接层5、结论5.1 结构显示5.2 结果显示6、自我改进6.1 改进的内容6.2 思维导图6.3 结果展示6.4 后续调整0、概述THUCNews是根据新浪新闻RSS订...

2019-02-27 14:55:43 4297 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除