机器学习学习笔记(day01)

最新推荐文章于 2024-11-02 16:28:26 发布

QYiRen

最新推荐文章于 2024-11-02 16:28:26 发布

阅读量1k

点赞数 1

分类专栏：数据分析与挖掘文章标签： python 开发语言机器学习 sklearn

本文链接：https://blog.csdn.net/qq_42433311/article/details/121558850

版权

本文是机器学习的学习笔记，介绍了什么是机器学习及其目的，详细讲解了特征工程，包括字典和文本特征抽取，以及tf-idf的概念。接着讨论了特征处理，如归一化和标准化，缺失值处理，以及数据降维的方法，如特征选择和主成分分析（PCA）。

摘要由CSDN通过智能技术生成

1.什么是机器学习：

机器学习是从数据中自动分析获得规律（模型），并利用规律对未知数据进行预测。

目的：对于企业来说，让机器学习的程序代替手动的步骤，减少企业成本以及提高企业效率。

2.特征工程是什么?

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的工程，从而提高了对未知数据的预测准确性，提高模型的预测效果。

3.数据的特征抽取

特征抽取：对文本等数据进行特征值化，更好地让计算机理解数据

小demo：

#特征抽取
from sklearn.feature_extraction.text import CountVectorizer
#实例化CountVectorizer
vector = CountVectorizer()
#调用fit_transform输入并转换数据
res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])
#打印结果
print(vector.get_feature_names())
print(res.toarray())

运行结果：

①字典特征抽取：

作用：对字典数据进行特征值化

类：sklearn.feature_extraction.DictVectorzer

#字典特征抽取流程
from sklearn.feature_extraction import DictVectorizer
def dictvector():
    """
    字典数据抽取
    :return: None
    """
    #实例化
    vector= DictVectorizer(sparse=False)
    #调用fit_transform
    data = vector.fit_transform([{"city":"Beijing","temp":100},{"city":"Shanghai","temp":60},{"city":"Nanjing","temp":30}])
    print(vector.get_feature_names())
    print(data)
    return None
if __name__=="__main__":
    dictvector()

运行结果：sparse矩阵：节约内存，方便读取处理。实例化时传入参数sparse=Falsed打印数组