自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

小哀的进化UPUPUP

过去种种,皆成今我。

  • 博客(2)
  • 资源 (5)
  • 收藏
  • 关注

转载 【数据挖掘】dummy variable 虚拟变量

一般地,在虚拟变量的设置中:基础类型、肯定类型取值为1;比较类型,否定类型取值为0。    适用于无序的离散数字变量。    例如:    若用数字1-12表示1-12月,那么就潜在表示了12月和1月差的很远,其实离的很近。    若用离散数字表示一地域,假如用数字1-23表示23个省,那么数字潜在的意思是,相邻的数字代表的省比较相似,差距的数字表示的省不相似,然而并没有这个意思。所以用单

2018-01-08 11:19:06 2270

原创 【数据预处理】one hot编码(独热编码)

1、分类数据 在实际的应用场景中,有非常多的特征不是连续的数值变量,而是某一些离散的类别。比如用户的性别,用户的地址,用户的兴趣爱好等等一系列特征,都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里。 2、独热编码(one hot) 独热编码便是解决这个问题,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效

2018-01-08 10:57:40 2031

adults、advertisement数据集 最佳特征选择 转换器

包括adults和advertisement两个数据集,代码为pycharm工程文件,python3.6。注释详细。参考资料为python数据挖掘入门与实践第五章。

2018-01-12

movielens(100K)数据集分析,Apriori算法,电影推荐

本压缩包为pycharm工程文件,其中movie文件夹内为movielens的数据集,100k条数据。代码为python3.6,注释详细。欢迎一起学习。

2018-01-11

python数据挖掘入门与实践第二章代码和数据集 近邻算法 数据预处理 流水线

python数据挖掘入门与实践书中第二章的数据集和代码。文件夹内为pycharm工程文件。其中data文件夹请放到自己主目录下。Windows一般是C盘user-用户名的文件夹。注释是自己写的,win10运行无压力。

2018-01-10

微信公众平台搭建与开发解密

机械工业出版社,2013年版本。本书共15章,主要内容有微信公众平台介绍、编辑模式的操作管理、开发模式的验证、地理位置信息的使用、常用API对接、数据库操作、缓存处理、WAP站搭建,以及刮刮乐和秒杀等促销功能。此外,本书对于腾讯微生活和第三方微信接口也作了初步介绍,最后以一个具体实例介绍了微信公众账号的开发流程。

2016-04-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除