大数据
莫问收获,但问耕耘
滚滚长江东逝水,浪花淘尽英雄。
展开
-
中国疫情发展趋势分析预测(python实现)
中国疫情发展趋势预测笔者使用的增长模型预测中国疫情发展趋势,使用了3种增长模型进行了预测,这里只贴出利用逻辑斯蒂增长模型的代码。logistic增长的曲线也称为s型曲线。下图左图为曲线数量,右图为增长速率。逻辑斯蒂增长模型,又叫阻滞增长模型,逻辑斯蒂曲线通常分为5个时期:开始期,由于种群个体数很少,密度增长缓慢,又称潜伏期。 加速期,随个体数增加,密度增长加...原创 2020-03-06 15:28:49 · 36159 阅读 · 160 评论 -
大数据挖掘——认识数据
第二章 认识数据2.1 数据对象与属性类型 数据集由数据对象组成,一个数据对象代表一个实体。属性,是一个字段,表示数据对象的一个特征。在文献中,属性、维、特征和变量可以互换的使用。用来描述一个给定对象的一组属性称做属性向量(特征向量)。2.1.1 标称属性 标称意味着“与名称相关”,标称属性的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的。2....原创 2019-07-13 10:04:45 · 581 阅读 · 0 评论 -
大数据挖掘——数据预处理
第三章 数据预处理3.1 数据预处理3.1.1 数据质量 数据质量涉及很多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。3.1.2 数据预处理的主要任务 数据处理的主要步骤:数据清理、数据集成、数据归约和数据变换。数据清理通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来清理数据。假设你想在分析中使用来自多个数据源的数据,这涉及集成多个数据库、数据立方体...翻译 2019-07-13 10:51:45 · 848 阅读 · 0 评论 -
6行代码实现kNN算法
6行代码实现kNN算法监督学习-分类算法-kNNkNN:K最近邻算法,k-Nearest Neighbork个最近的邻居属于:监督学习,分类算法kNN算法思想衡量未知分类点周围邻居的权重然后把它归类到权重更大的那一类较适用于类域交叉重叠的样本kNN算法描述输入k值对未知类别数据集中的每一个点依此执行以下操作计算当前点与已知类别数据集中的点之间的距离按照距...原创 2019-08-24 16:22:02 · 310 阅读 · 0 评论 -
kNN算法调参--超参数和网格搜索
调参 - 超参数和网格搜索提升机器学习预测准确率的方式搞数据(特征工程)增加样本数据行数(样本数量)增加样本数据列数(特征)搞算法调包调参超参数:算法运行前需要决定的参数模型参数:算法训练中学习到的参数y = a * x + b例如:决策树算法中,max_depth分支最大深度就是超参数;而分支阈值就是模型参数要寻找既不过拟合,预测准确率又高的...原创 2019-08-24 16:44:56 · 7389 阅读 · 1 评论 -
监督学习--分类之决策树
监督学习-分类-决策树决策树使用树形分支结构分类事物例:小丽找对象,要求:高、帅、富小明找对象,要求:美美美if height >= 172: if hansom = '帅': if rich >= 5000000: print('小哥哥我晚上有空!') else: print('加...原创 2019-08-28 21:13:24 · 554 阅读 · 0 评论 -
集成学习:随机森林和GBDT
集成学习:随机森林和GBDT[外链图片转存失败(img-23PmTXbA-1567001324533)(images/suijisenlin.gif)]王境泽的机器学习技巧什么是集成学习(Voting Classifier)?同一数据,同时应用多种差异模型,将预测结果用某种方式投票选出最佳结果例如:新出的电影好不好看?根据其他人评价自行判断日常工作应用中,监督学习算法的选择:...原创 2019-08-28 22:07:29 · 530 阅读 · 0 评论 -
numpy数值模拟----三门问题(蒙提霍尔悖论)
案例:数值模拟 - 三门问题(蒙提霍尔悖论)三门问题,亦称为蒙提霍尔问题,出自美国的电视游戏节目Let’s Make a Deal。问题的名字来自该节目的主持人蒙提·霍尔(Monty Hall)1:参赛者面前有三扇关闭着的门,其中一扇的后面是一辆汽车,而另外两扇门后面则各藏有一只山羊,选中后面有车的那扇门就可以赢得该汽车2:当参赛者选定了一扇门,但未去开启它的时候,主持人会开启剩下两扇门中的...原创 2019-08-30 09:56:12 · 560 阅读 · 0 评论