Python机器学习算法基础第一、二天

最新推荐文章于 2024-07-13 22:52:18 发布

elly_yang

最新推荐文章于 2024-07-13 22:52:18 发布

阅读量27

点赞数

分类专栏： Python机器学习算法基础文章标签：机器学习 python 算法

本文链接：https://blog.csdn.net/elly_yang/article/details/131420381

版权

Python机器学习算法基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

机器学习概述：
机器学习是从数据中自动分析获得规律，并利用规律对未知数据进行预测
机器学习的数据：文件，csv等
可用的数据集：kaggle，UCI，scikit-learn
常用数据集的结构组成：特征值+目标值，有些数据集可以没有目标值

数据的特征工程：
将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高了对未知数据的预测准确性

数据的特征抽取：
特征抽取API：用包sklearn.feature_extraction
字典特征抽取：对字典数据进行特征值化，sklearn.feature_extraction.DictVectorizer

from sklearn.feature_extraction import DictVectorizer

def dictvec():
	"""
	字典数据抽取
	"""
	# 实例化
	dict = DictVectorizer()
	
	# 调用fit_transform
	data = dict.fit_transform([{'city':'北京', 'temperature':100}, {'city':'上海', 'temperature':60}, {'city':'深圳', 'temperature':30}])
	return None

if __name__ == "__main__":
	dictvec()