- 博客(4)
- 收藏
- 关注
![](https://csdnimg.cn/release/blogv2/dist/pc/img/listFixedTop.png)
原创 特征工程个人笔记
特征工程1.概述2方法2.1去除唯一性2.2处理缺失值2.3 特征编码2.3.1特征二元化2.3.2独热编码(One-HotEncoding)2.3.3标签编码2.3.4多项式特征2.3.5交叉验证2.3.6网格搜索2.3.7管道机制2.4数据标准化、正则化2.5 特征选择(降维) 1.概述 在工程实践中,我们得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。数据预处理的常用流程为:去除唯一属性、处理缺失值、属性编码、数据
2021-03-01 11:17:09
247
原创 windows下NEO4J安装教程
安装neo4j之前需要安装JDK,本文提供的是JDK1.8.0和neo4j 社区版3.5.8 网盘链接:JDK和neo4j下载,提取码:idzh 1.JDK的安装及配置 下载JDK安装包后傻瓜式安装即可,随后配置环境变量 进入系统环境变量配置:此电脑->属性->高级系统设置->环境变量 第一步: 新建JAVA_HOME变量,变量值填写jdk的安装目录 第二步: 编辑Path变量,在Path变量值的最后输入:%JAVA_HOME%\bin; 第三步:验证是否配置好: 打开cmd 输入ja
2021-03-21 10:26:59
2069
1
原创 回归调库练习
回归调库 相信许多人对调库充满了恐惧,那些不同的库让人看得眼花缭乱,本次代码分享就是以波士顿房价为例来做预测模型,并采用网格搜索来确定最优参数,最后再用最优参数确定最优模型再打印其评估指标,从而对相关调库进行对比记忆 # 1.回归算法 # -数据:boston房价 from sklearn.datasets import load_boston#导入波士顿房价数据集 from sklearn.pipeline import Pipeline#导入管道机制 from sklearn.preprocessing
2020-10-24 11:43:31
244
1
原创 有关TF与IDF
有关TF与IDF TF from sklearn.feature_extraction.text import CountVectorizer test=['你想吃啥啥啥啥子牙','我啥也不想吃'] tf=CountVectorizer(token_pattern='[a-zA-Z|\u4e00-\u9fa5]') test1=tf.fit_transform(test) print(tf.get_feature_names()) print(test1.A) IDF from sklearn.featu
2020-10-23 20:25:10
293
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人