- 博客(6)
- 收藏
- 关注
原创 《特征工程三部曲》之三:维度压缩
当特征选择完成之后,就可以直接训练模型了,但是可能由于特征矩阵过大导致计算量大,训练时间长的问题;因此,降低特征矩阵维度,也是必不可少的,主成分分析就是最常用的降维方法,在减少数据集的维度的同时,保持对方差贡献最大的特征,在sklearn中,我们使用PCA类进行主成分分析。主成分分析(Principal Components Analysis)PCA API有一个参数用于设置主成分的个数:pca
2017-10-28 21:18:19 4705
原创 《特征工程三部曲》之二:特征选择
什么特征选择特征选择 ( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS ) ,或属性选择( Attribute Selection ) ,是指从全部特征中选取一个特征子集,使构造出来的模型更好。为什么要做特征选择在机器学习的实际应用中,特征数量往往较多,其中可能存在不相关的特征,特征之间也可能存在相互依赖,容易导致如下的
2017-10-26 15:46:36 8217
原创 《特征工程三部曲》之一:数据处理
要理解特征工程,首先要理解数据(Data)和特征(Feature)的概念概念特征工程(Feature Engineering)其本质上是一项工程活动,它目的是最大限度地从原始数据中提取特征以供算法和模型使用。 特征工程在数据挖掘中有举足轻重的位置 数据领域一致认为:数据和特征决定了机器学习的上限,而模型和算法只能逼近这个上限而已。特征工程重要性:特征越好,灵活性越强;特征越好,模型越简单
2017-10-23 16:01:51 11498
原创 数据挖掘之提取关键词
关键词关键词快速了解文档内容、把握主题的重要方式。广泛应用到新闻报道、科技论文等领域,以方便人们高效的管理和检索文档一篇文档的关键词一般是几个词或短语,作为对该文档主要内容的提要一个简单的关键词提取举例使用jieba包中的extract_tags方法
2017-10-06 12:12:06 3694
原创 Python地理信息数据可视化
地图基础铺垫定义地图(map):是指按一定的比例运用符号、颜色、文字标记等描绘显示地球表面的自然地理、行政区域、社会经济状况的图形。地图绘制步骤绘制需要展示的地图,获取地图对象,获取每个区域的名字及顺序;在每个区域的名字和顺序后面,加上我们需要展示的数据以及经纬度;根据数据的大小,设置每个区域展示的颜色的深浅,以区分每个区域(对数据进行标准化处理,使用[0,1]的值,代表颜色的透明度);
2017-10-04 20:53:26 6556
原创 Python数据可视化
散点图基础铺垫定义散点图(scatter diagram):是以一个变量为横坐标,另一个变量为纵坐标,利用散点(坐标点)的分布形态反映变量关系的一种图形。它是探索数值型变量数据关系的有力工具;散点图直观简便,不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度,因此散点图一般和相关分析,回归分析结合使用。散点图绘制函数plot(x,y,’.’,color=(r,g,b))plot参
2017-10-03 14:58:43 1679
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人