Python机器学习算法基础第一、二天

机器学习概述:
机器学习是从数据中自动分析获得规律,并利用规律对未知数据进行预测
机器学习的数据:文件,csv等
可用的数据集:kaggle,UCI,scikit-learn
常用数据集的结构组成:特征值+目标值,有些数据集可以没有目标值

数据的特征工程:
将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的预测准确性

数据的特征抽取:
特征抽取API:用包sklearn.feature_extraction
字典特征抽取:对字典数据进行特征值化,sklearn.feature_extraction.DictVectorizer

from sklearn.feature_extraction import DictVectorizer

def dictvec():
	"""
	字典数据抽取
	"""
	# 实例化
	dict = DictVectorizer()
	
	# 调用fit_transform
	data = dict.fit_transform([{'city':'北京', 'temperature':100}, {'city':'上海', 'temperature':60}, {'city':'深圳', 'temperature':30}])
	return None

if __name__ == "__main__":
	dictvec()

文本特征抽取:
sklearn.fearture_extraction.text.CountVectorizer
中文要用jieba进行分词,然后可以进行文本特征抽取

sklearn.fearture_extraction.text.TfidfVectorizer
tf:词的频率 term frequency
idf:逆文的频率 inverse document frequency:
log(总文的数量/该词出现的文档数)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值