机器学习基础【Day1】：文本特征提取和数字特征预处理

最新推荐文章于 2024-12-29 12:26:27 发布

原创

最新推荐文章于 2024-12-29 12:26:27 发布 · 1.5k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#python #机器学习 #数据分析

记录一些听课时的笔记：

1. pandas: 用于数据读取和基本的格式处理；sklearn：特征处理（特征工程）

2. 特征工程主要任务：特征抽取预处理降维；特征抽取：文本，字符串，转换为数字形式，可以叫特征值化

3. sparse 矩阵：记录角标而不是整个向量，可以节约内存

4. 标准化比归一化更好用，因为归一化易受异常点的影响，而标准化均值为0标准差为

5. 处理缺失值时，注意看缺失值是什么格式，是NAN，还是？可以用replace来将？替换为 nan

展示一些代码和我的注释：

1.字典数据抽取

# 导入包，其中Imputer导入不了就用SimpleImputer
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
import jieba
import numpy as np



def dictvec():
    """
    字典数据抽取
    :return: None
    """
    # 实例化，dict是一个对象
    dict = DictVectorizer(sparse=False) 

    # 调用fit_transform，输入列表数据并转换，一共3个样本
    data = dict.fit_transform([{'city': '北京','tempe