记录一些听课时的笔记:
1. pandas: 用于数据读取和基本的格式处理;sklearn:特征处理(特征工程)
2. 特征工程主要任务:特征抽取 预处理 降维;特征抽取:文本 ,字符串,转换为数字形式,可以叫特征值化
3. sparse 矩阵:记录角标而不是整个向量,可以节约内存
4. 标准化比归一化更好用,因为归一化易受异常点的影响,而标准化均值为0标准差为
5. 处理缺失值时,注意看缺失值是什么格式,是NAN,还是?可以用replace来将?替换为 nan
展示一些代码和我的注释:
1.字典数据抽取
# 导入包,其中Imputer导入不了就用SimpleImputer
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
import jieba
import numpy as np
def dictvec():
"""
字典数据抽取
:return: None
"""
# 实例化,dict是一个对象
dict = DictVectorizer(sparse=False)
# 调用fit_transform,输入列表数据并转换,一共3个样本
data = dict.fit_transform([{'city': '北京','tempe

最低0.47元/天 解锁文章
197

被折叠的 条评论
为什么被折叠?



