机器学习学习笔记(day01)

本文是机器学习的学习笔记,介绍了什么是机器学习及其目的,详细讲解了特征工程,包括字典和文本特征抽取,以及tf-idf的概念。接着讨论了特征处理,如归一化和标准化,缺失值处理,以及数据降维的方法,如特征选择和主成分分析(PCA)。
摘要由CSDN通过智能技术生成

1.什么是机器学习:

机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。

目的:对于企业来说,让机器学习的程序代替手动的步骤,减少企业成本以及提高企业效率。

2.特征工程是什么?

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的工程,从而提高了对未知数据的预测准确性,提高模型的预测效果。

3.数据的特征抽取

特征抽取:对文本等数据进行特征值化,更好地让计算机理解数据

小demo:

#特征抽取
from sklearn.feature_extraction.text import CountVectorizer
#实例化CountVectorizer
vector = CountVectorizer()
#调用fit_transform输入并转换数据
res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])
#打印结果
print(vector.get_feature_names())
print(res.toarray())

运行结果:

 

 ①字典特征抽取:

        作用:对字典数据进行特征值化

        类:sklearn.feature_extraction.DictVectorzer

#字典特征抽取流程
from sklearn.feature_extraction import DictVectorizer
def dictvector():
    """
    字典数据抽取
    :return: None
    """
    #实例化
    vector= DictVectorizer(sparse=False)
    #调用fit_transform
    data = vector.fit_transform([{"city":"Beijing","temp":100},{"city":"Shanghai","temp":60},{"city":"Nanjing","temp":30}])
    print(vector.get_feature_names())
    print(data)
    return None
if __name__=="__main__":
    dictvector()

运行结果:sparse矩阵:节约内存,方便读取处理。实例化时传入参数sparse=Falsed打印数组

这个结果表明:字典数据抽取就是把字典中的一些类别转换为特征值(one-hot编码),数字保持不变

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值