8.5 Python机器学习--微博聚类和音乐分类理论记录

Python机器学习:
隆重推出scikit-learn机器学习库
Scikit-Learn是基于python的机器学习模块
Scikit-Learn中的机器学习模型非常丰富,包括SVM,决策树, GBDT,KNN等等,可以根据问题的类型选择合适的模型
Scikit-Learn的安装需要numpy,scipy,matplotlib等模块
微博聚类:
数据集(微博数据)
算法使用(scikit-learn中的kmeans)
期望结果(相似微博聚到同一类)
额外支持模块(jieba中文分词库)
案例流程:
一行行读入原始微博
读的同时进行分词并存入语料库
使用sklearn包中feature_extraction的方法计算出每条微博每个词 中的tf-idf值
将计算出的微博向量矩阵带入到算法中去聚类
将聚类结果和原始微博数据进行整合存入一个结果文件

音乐分类:
数据集(音乐数据)
算法使用(scikit learn中的logistic regression(逻辑回归))
期望结果(输入一首歌,可以对输入的歌曲进行分类)
额外支持模块(安装dateutil-->six-->pyparsing-->pytz-->matplotlib)
案例流程:
["classical", "jazz", "country", "pop", "rock", "metal"]
通过傅里叶变换将以上6类里面所有原始wav格式音乐文件转换为 特征,并取前1000个特征,存入文件以便后续训练使用
读入以上6类特征向量数据作为训练集
使用sklearn包中LogisticRegression的fit方法计算出分类模型
读入黑豹乐队歌曲”无地自容”并进行傅里叶变换同样取前1000维 作为特征向量
调用模型的predict方法对音乐进行分类,结果分为rock即摇滚类
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值