自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

JackFeng's Blog

数据挖掘分析

  • 博客(3)
  • 资源 (6)
  • 收藏
  • 关注

原创 embedding与word2vec

embedding是指将目标向量化,常用于自然语言处理(如:Word2Vec)。这种思想的意义在于,可以将语义问题转换为数值计算问题,从而使计算机能够便捷处理自然语言问题。如果采用传统的One-hot编码,每个单词之间相互独立,此时词向量之间相互正交,编码无法反映单词之间的关联关系。而embedding可以理解为是将One-hot编码的高维向量,降维到一个较低维度的空间,在这个空间中不同单词之间能...

2018-04-24 11:09:42 1639

原创 ROC曲线和AUC

ROC全称Receiver Operating Curve,最早应用于二战时的雷达探测,以评价信号侦测模型的优劣。在机器学习领域,ROC曲线同样用于模型效果的评价。ROC曲线样例如下图所示,其横坐标为假正率(FPR),纵坐标为真正率(TPR),曲线上的点对应不同阈值下的模型(FPR,TPR)。ROC理解的难点就在于阈值的变化,能够造成FPR和TPR的变化,从而形成曲线。当判断正负样本的阈值为极端小...

2018-04-17 11:21:32 716

原创 hive中left join、left outer join和left semi join的区别

先说结论,再举例子。hive中,left join与left outer join等价。left semi join与left outer join的区别:left semi join相当于in,即会过滤掉左表中join不到右表的行,右表中有多行能join到时显示一行,并且只输出左表的字段、不输出右表的字段;left outer join不会过滤掉左表中的行,右表中有多行能join到时显示多行,并...

2018-04-10 20:10:50 8888 1

R语言与网站分析:数据集样例及分类算法实现

针对《R语言与网站分析》一书未提供数据集和源代码的情况,自己动手整理了一个可用于其中分类算法的数据集,并且基于该数据集实现了朴素贝叶斯、SVM和人工神经网络等分类算法。附件中数据集、源程序和简要的说明文档。 详细说明可参考:http://blog.csdn.net/elecjack/article/details/50726686

2016-02-23

GBT7354 局放检测国家标准

IEC60270对应的局放检测国家标准,主要是脉冲电流法测量局放

2010-11-08

旅行商问题 最近插入法

旅行商问题 最近插入法 TSP nearest insertion DEV C++ 29个城市节点

2009-12-27

matlab源程序 牛顿插值法 三次样条插值法

牛顿插值法和三次样条插值法的matlab源程序,附件中有详细的例题、算法说明、数据分析以及源程序

2009-12-20

Linux基本技能教程{适合Linux初学者}

Linux基本技能教程{适合Linux初学者}Linux基本技能教程{适合Linux初学者}

2009-09-29

Linux命令大全 简明版

Linux命令大全 简明版 Linux命令大全 简明版

2009-09-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除