1.什么是机器学习:
机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。
目的:对于企业来说,让机器学习的程序代替手动的步骤,减少企业成本以及提高企业效率。
2.特征工程是什么?
特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的工程,从而提高了对未知数据的预测准确性,提高模型的预测效果。
3.数据的特征抽取
特征抽取:对文本等数据进行特征值化,更好地让计算机理解数据
小demo:
#特征抽取
from sklearn.feature_extraction.text import CountVectorizer
#实例化CountVectorizer
vector = CountVectorizer()
#调用fit_transform输入并转换数据
res = vector.fit_transform(["life is short,i like python","life is too long,i dislike python"])
#打印结果
print(vector.get_feature_names())
print(res.toarray())
运行结果:
①字典特征抽取:
作用:对字典数据进行特征值化
类:sklearn.feature_extraction.DictVectorzer
#字典特征抽取流程
from sklearn.feature_extraction import DictVectorizer
def dictvector():
"""
字典数据抽取
:return: None
"""
#实例化
vector= DictVectorizer(sparse=False)
#调用fit_transform
data = vector.fit_transform([{"city":"Beijing","temp":100},{"city":"Shanghai","temp":60},{"city":"Nanjing","temp":30}])
print(vector.get_feature_names())
print(data)
return None
if __name__=="__main__":
dictvector()
运行结果:sparse矩阵:节约内存,方便读取处理。实例化时传入参数sparse=Falsed打印数组
这个结果表明:字典数据抽取就是把字典中的一些类别转换为特征值(one-hot编码),数字保持不变