- 博客(4)
- 收藏
- 关注

原创 特征工程个人笔记
特征工程1.概述2方法2.1去除唯一性2.2处理缺失值2.3 特征编码2.3.1特征二元化2.3.2独热编码(One-HotEncoding)2.3.3标签编码2.3.4多项式特征2.3.5交叉验证2.3.6网格搜索2.3.7管道机制2.4数据标准化、正则化2.5 特征选择(降维)1.概述在工程实践中,我们得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。数据预处理的常用流程为:去除唯一属性、处理缺失值、属性编码、数据
2021-03-01 11:17:09
289
原创 windows下NEO4J安装教程
安装neo4j之前需要安装JDK,本文提供的是JDK1.8.0和neo4j 社区版3.5.8网盘链接:JDK和neo4j下载,提取码:idzh1.JDK的安装及配置下载JDK安装包后傻瓜式安装即可,随后配置环境变量进入系统环境变量配置:此电脑->属性->高级系统设置->环境变量第一步:新建JAVA_HOME变量,变量值填写jdk的安装目录第二步:编辑Path变量,在Path变量值的最后输入:%JAVA_HOME%\bin;第三步:验证是否配置好:打开cmd 输入ja
2021-03-21 10:26:59
2203
1
原创 回归调库练习
回归调库相信许多人对调库充满了恐惧,那些不同的库让人看得眼花缭乱,本次代码分享就是以波士顿房价为例来做预测模型,并采用网格搜索来确定最优参数,最后再用最优参数确定最优模型再打印其评估指标,从而对相关调库进行对比记忆# 1.回归算法# -数据:boston房价from sklearn.datasets import load_boston#导入波士顿房价数据集from sklearn.pipeline import Pipeline#导入管道机制from sklearn.preprocessing
2020-10-24 11:43:31
280
1
原创 有关TF与IDF
有关TF与IDFTFfrom sklearn.feature_extraction.text import CountVectorizertest=['你想吃啥啥啥啥子牙','我啥也不想吃']tf=CountVectorizer(token_pattern='[a-zA-Z|\u4e00-\u9fa5]')test1=tf.fit_transform(test)print(tf.get_feature_names())print(test1.A)IDFfrom sklearn.featu
2020-10-23 20:25:10
339
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人