一、机器学习简介和概述:
1.影响人工智能的发展:数据和算法
2.分类:(1)自然语言处理:自动报到天气的程序,写新闻
(2)图像识别:人脸识别,图片优化
(3)传统预测:信贷需求预测,店铺销量预测
3.机器学习是:从数据中自动分析获得规律,并利用这些规律对未知数据进行预测。
比如说:AlphaGo(从棋谱中学习数据,打败柯洁)、广告搜索:根据历史行为推荐商品
4.为什么需要机器学习:解放生产力(智能客服)、解决专业问题(ET医疗)、提供社会便利(城市大脑)
5.机器学习的价值:领域需要多,让机器学习程序替代手动的步骤,减少企业的成本也提高企业的效率。
二、特征工程和文本提取
1.数据集的组成
机器学习的数据:文件csv,使用pandas读取数据处理数据,基于numpy
numpy为什么处理速度很快?c编写,GIL锁释放可以进行多线程操作
2.数据集的结构:
数据集:kaggle uci scikit-learn
结构:特征值+目标值
比如说:利用身高、体重、皮肤颜色、头发长度等判断男女
{特征值:身高、体重、皮肤、头发长度 目标值:男、女}
注:有些数据集可以没有目标值