![](https://img-blog.csdnimg.cn/20210223111615406.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
python机器学习
文章平均质量分 83
python机器学习
大勇任卷舒
这个作者很懒,什么都没留下…
展开
-
31.python机器学习-文本分析
文本数据停用词语料中大量出现没啥大用留着过年嘛?31.1 Tf-idf:关键词提取《中国的蜜蜂养殖》: 进行词频(Term Frequency,缩写为TF)统计出现次数最多的词是----“的” 、 “是” 、 “在”----这一类最常用的词(停用词)“中国” 、 “蜜蜂” 、 “养殖”这三个词的出现次数一样多,重要性是一样的?"中国"是很常见的词,相对而言,"蜜蜂"和"养殖"不那么常见“逆文档频率”(Inverse Document Frequency,缩写为IDF).原创 2021-03-05 11:23:27 · 459 阅读 · 2 评论 -
30.python机器学习-推荐系统
30.1认识推荐系统30.1.1 推荐系统的背景随着信息技术和互联网的发展,人们逐渐从信息匮乏的时代走入了信息过载(information overload)的时代。在这个时代,无论是信息消费者还是信息生产者都遇到了很大的挑战无明确需求信息过载30.1.2 什么是推荐系统推荐系统任务:联系用户和产品,解决信息过载问题。30.1.3 推荐系统和搜索引擎相同点帮助用户快速发现有用信息的工具不同点搜索引擎需要用户主动提供准确的关键词来寻找信息推荐系统不需要用户原创 2021-03-03 15:07:18 · 1235 阅读 · 1 评论 -
29.python机器学习-时间序列分析
29.1 平稳性平稳性就是要求经由样本时间序列所得到的拟合曲线在未来的一段期间内仍能顺着现有的形态“惯性”地延续下去平稳性要求序列的均值和方差不发生明显变化29.2 严平稳与弱平稳严平稳:严平稳表示的分布不随时间的改变而改变。如:白噪声(正态),无论怎么取,都是期望为0,方差为1弱平稳:期望与相关系数(依赖性)不变未来某时刻的t的值Xt就要依赖于它的过去信息,所以需要依赖性29.3 差分法:时间序列在t与t-1时刻的差值29.4 自回归模型(AR)描述当前值与原创 2021-02-26 14:43:41 · 1119 阅读 · 2 评论 -
28.python机器学习-LDA和PCA
28.1 线性判别分析(LDA)Linear Discriminant Analysis用途:数据预处理中的降维,分类任务历史:Ronald A. Fisher在1936年提出了线性判别方法目标:LDA关心的是能够最大化类间区分度的坐标轴成分。将特征空间(数据集中的多维样本)投影到一个维度更小的 k 维子空间中, 同时保持区分类别的信息原理:投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近方法[外链图片转存失败,源站可能有防盗原创 2021-02-25 16:21:17 · 424 阅读 · 0 评论 -
27.python机器学习——k-means
27.1 机器学习开发流程27.2 机器学习模型是什么定义:通过一种映射关系将输入值到输出值27.3 机器学习算法分类监督学习分类 k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络回归 线性回归、岭回归标注 隐马尔可夫模型 (不做要求)无监督学习聚类 k-means27.3.1 无监督学习无监督学习(英语:Supervised learning),可以由输入数据中学到或建立一个模型,并依此模式推测新的结果。输入数据是由输入特征值所组成。27.原创 2021-02-24 16:29:36 · 157 阅读 · 0 评论 -
26.python机器学习-MachineLearning
26.1 机器学习概述机器学习应用场景26.2 数据来源与类型26.1 数据来源企业日益积累的大量数据(互联网公司更为显著)政府掌握的各种数据科研机构的实验数据… …离散型数据:由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度。连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续的,如,长度、时间、质量值等,这类整数通常是非整数,含有小数部分。26.2 可用数据集26.3 常用数据集原创 2021-02-23 15:15:07 · 373 阅读 · 0 评论