机器学习基础【Day1】:文本特征提取和数字特征预处理

记录一些听课时的笔记:

1. pandas: 用于数据读取和基本的格式处理;sklearn:特征处理(特征工程)

2. 特征工程主要任务:特征抽取 预处理 降维;特征抽取:文本 ,字符串,转换为数字形式,可以叫特征值化

3. sparse 矩阵:记录角标而不是整个向量,可以节约内存

4. 标准化比归一化更好用,因为归一化易受异常点的影响,而标准化均值为0标准差为

5. 处理缺失值时,注意看缺失值是什么格式,是NAN,还是?可以用replace来将?替换为 nan

展示一些代码和我的注释:

1.字典数据抽取

# 导入包,其中Imputer导入不了就用SimpleImputer
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
import jieba
import numpy as np



def dictvec():
    """
    字典数据抽取
    :return: None
    """
    # 实例化,dict是一个对象
    dict = DictVectorizer(sparse=False) 

    # 调用fit_transform,输入列表数据并转换,一共3个样本
    data = dict.fit_transform([{'city': '北京','tempe
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值