1、机器学习领域:自然语言处理、图像识别、传统预测
2、学习目标:
熟悉机器学习各类算法的原理
熟悉算法的使用,能够结合场景解决实际问题
掌握使用机器学习算法库和框架的技能
3、可用的数据集:
Kaggle特点:https://www.keggle.com/datasets
(1)大数据竞赛平台
(2)80万科学家
(3)真实数据
(4)数据量巨大
UCL特点:http://archive.ics.ucl.edu/ml/
(1)收录了360个数据集
(2)覆盖科学、生活、经济等领域
(3)数据量几十万
scikit-learn特点: http://scikit-learn.org/stable/index.html#datasets
(1)数据量小
(2)方便学习
4、常用数据集结构的组成:
特征值+目标值 特征值
dataFrame 身高 体重 皮肤值 头发长度
列索引 男
女
1
2
3
*注:有些数据没有目标值
5、特征值的处理:
dataFrame 缺失值,数据转换
机器学习: 重复值? 不需要进行去重
pandas:(潘纳斯) 一个数据读取非常方便以及基本的处理格式工具
sklearn:对于特征的处理提供了强大的接口 ---特征工程
6、特征工程:
(1)特征工程是将原始数据转换成更好的代表预测模型
的潜在问题的特征的过程,从而提高了对未知数据的预测准确性
(2)意义:直接影响预测结果
(3)scikit-learn(塞克冷) 库介绍
python语言的机器学习工具
scikit-learn包含许多的机器学习算法的实现
scikit-learn文档完善,容易上手丰富的Api
其在学术界颇受欢迎
目前稳定版本0.18
安装:
创建一个基于python3的虚拟环境(可以在你自己以有的虚拟环境中)
mkvirtualenv -p /usr/bin/python3.5 ml3
在ubuntu的虚拟环境当中运行以下命令
pip3 install Scikit-learn
然后通过导入命令查看是否可以使用:
import sklearn
*注:安装scikit-learn需要Numpy.pandas等库
(4)特征抽取:
特征抽取对文本等数据进行特征值化
【1】字典特征抽取
作用:对字典进行特征值化
类: sklearn.feature_extraction.DictVectorizer
DictVectorizer语法
. DictVectorizer(sparse=True,...)
. DictVectorizer.fit_transform(X)
. X:字典或者包含字典的迭代器
. 返回值:返回sparse矩阵
. DictVectorizer.inverse_transform(X)
.X:array 数组或者sparse矩阵
. 返回值:转换之前数据格式
.DictVectorizer.get_feature_names()
.返回类别名称
.DictVectorizer.transform(X)
. 按照原先的标准转换
【2】流程
[1]、实例化类 dictVectorizer
[2]、 调用fit_transform 方法输入数据并转换 注意返回格式
from sklearn_feature_extraction import DictVectorizer --导入类
def dictvec(); --定义一个函数
"""
字典数据抽取
:return:None
"""
#实例化
dict=DictVectorizer(sparse=false)
#调用fit_transform
data=dict.fit_transform({'city':'背景','temperature':'100'},{},{})
print(dict.get_feature_names())
print(data)
return None
if _name_=="_main_":
[3]one-hot编码分析:
2、学习目标:
熟悉机器学习各类算法的原理
熟悉算法的使用,能够结合场景解决实际问题
掌握使用机器学习算法库和框架的技能
3、可用的数据集:
Kaggle特点:https://www.keggle.com/datasets
(1)大数据竞赛平台
(2)80万科学家
(3)真实数据
(4)数据量巨大
UCL特点:http://archive.ics.ucl.edu/ml/
(1)收录了360个数据集
(2)覆盖科学、生活、经济等领域
(3)数据量几十万
scikit-learn特点: http://scikit-learn.org/stable/index.html#datasets
(1)数据量小
(2)方便学习
4、常用数据集结构的组成:
特征值+目标值 特征值
dataFrame 身高 体重 皮肤值 头发长度
列索引 男
女
1
2
3
*注:有些数据没有目标值
5、特征值的处理:
dataFrame 缺失值,数据转换
机器学习: 重复值? 不需要进行去重
pandas:(潘纳斯) 一个数据读取非常方便以及基本的处理格式工具
sklearn:对于特征的处理提供了强大的接口 ---特征工程
6、特征工程:
(1)特征工程是将原始数据转换成更好的代表预测模型
的潜在问题的特征的过程,从而提高了对未知数据的预测准确性
(2)意义:直接影响预测结果
(3)scikit-learn(塞克冷) 库介绍
python语言的机器学习工具
scikit-learn包含许多的机器学习算法的实现
scikit-learn文档完善,容易上手丰富的Api
其在学术界颇受欢迎
目前稳定版本0.18
安装:
创建一个基于python3的虚拟环境(可以在你自己以有的虚拟环境中)
mkvirtualenv -p /usr/bin/python3.5 ml3
在ubuntu的虚拟环境当中运行以下命令
pip3 install Scikit-learn
然后通过导入命令查看是否可以使用:
import sklearn
*注:安装scikit-learn需要Numpy.pandas等库
(4)特征抽取:
特征抽取对文本等数据进行特征值化
【1】字典特征抽取
作用:对字典进行特征值化
类: sklearn.feature_extraction.DictVectorizer
DictVectorizer语法
. DictVectorizer(sparse=True,...)
. DictVectorizer.fit_transform(X)
. X:字典或者包含字典的迭代器
. 返回值:返回sparse矩阵
. DictVectorizer.inverse_transform(X)
.X:array 数组或者sparse矩阵
. 返回值:转换之前数据格式
.DictVectorizer.get_feature_names()
.返回类别名称
.DictVectorizer.transform(X)
. 按照原先的标准转换
【2】流程
[1]、实例化类 dictVectorizer
[2]、 调用fit_transform 方法输入数据并转换 注意返回格式
from sklearn_feature_extraction import DictVectorizer --导入类
def dictvec(); --定义一个函数
"""
字典数据抽取
:return:None
"""
#实例化
dict=DictVectorizer(sparse=false)
#调用fit_transform
data=dict.fit_transform({'city':'背景','temperature':'100'},{},{})
print(dict.get_feature_names())
print(data)
return None
if _name_=="_main_":
[3]one-hot编码分析: