机器去学习-day01

最新推荐文章于 2023-04-25 22:34:56 发布

飞腾创客

最新推荐文章于 2023-04-25 22:34:56 发布

阅读量275

点赞数

文章标签： python 机器学习

本文链接：https://blog.csdn.net/qq_39716220/article/details/80290178

版权

1、机器学习领域：自然语言处理、图像识别、传统预测
2、学习目标：
熟悉机器学习各类算法的原理
熟悉算法的使用，能够结合场景解决实际问题
掌握使用机器学习算法库和框架的技能
3、可用的数据集：
Kaggle特点：https://www.keggle.com/datasets
（1）大数据竞赛平台
（2）80万科学家
（3）真实数据
(4)数据量巨大
UCL特点：http://archive.ics.ucl.edu/ml/
（1）收录了360个数据集
(2)覆盖科学、生活、经济等领域
（3）数据量几十万
scikit-learn特点： http://scikit-learn.org/stable/index.html#datasets
（1）数据量小
（2）方便学习
4、常用数据集结构的组成：
特征值+目标值特征值
dataFrame 身高体重皮肤值头发长度
列索引男
女
1
2
3
*注：有些数据没有目标值
5、特征值的处理:
dataFrame 缺失值，数据转换

机器学习：重复值？不需要进行去重
pandas:(潘纳斯) 一个数据读取非常方便以及基本的处理格式工具
sklearn:对于特征的处理提供了强大的接口 ---特征工程
6、特征工程：
（1）特征工程是将原始数据转换成更好的代表预测模型
的潜在问题的特征的过程，从而提高了对未知数据的预测准确性
（2）意义：直接影响预测结果
（3）scikit-learn(塞克冷) 库介绍
python语言的机器学习工具
scikit-learn包含许多的机器学习算法的实现
scikit-learn文档完善，容易上手丰富的Api
其在学术界颇受欢迎
目前稳定版本0.18
安装：
创建一个基于python3的虚拟环境（可以在你自己以有的虚拟环境中）
mkvirtualenv -p /usr/bin/python3.5 ml3
在ubuntu的虚拟环境当中运行以下命令
pip3 install Scikit-learn
然后通过导入命令查看是否可以使用：
import sklearn
*注：安装scikit-learn需要Numpy.pandas等库
（4）特征抽取：
特征抽取对文本等数据进行特征值化
【1】字典特征抽取
作用：对字典进行特征值化
类： sklearn.feature_extraction.DictVectorizer
DictVectorizer语法
. DictVectorizer(sparse=True,...)
. DictVectorizer.fit_transform(X)
. X:字典或者包含字典的迭代器
. 返回值：返回sparse矩阵
. DictVectorizer.inverse_transform(X)
.X:array 数组或者sparse矩阵
. 返回值：转换之前数据格式
.DictVectorizer.get_feature_names()
.返回类别名称
.DictVectorizer.transform(X)
. 按照原先的标准转换

【2】流程
[1]、实例化类 dictVectorizer
[2]、调用fit_transform 方法输入数据并转换注意返回格式
from sklearn_feature_extraction import DictVectorizer --导入类
def dictvec(); --定义一个函数
"""
字典数据抽取
:return：None
"""
#实例化
dict=DictVectorizer(sparse=false)
#调用fit_transform
data=dict.fit_transform({'city':'背景','temperature':'100'},{},{})
print(dict.get_feature_names())
print(data)
return None
if _name_=="_main_":
[3]one-hot编码分析：