数据挖掘与可视化
文章平均质量分 90
123
W_chuanqi
这个作者很懒,什么都没留下…
展开
-
分类与预测——回归分析
逻辑斯蒂(logistic function)函数形似s,是Sigmoid函数的典型代表,它将z值转化为一个接近0或1的y 值,并且其输出值在z=0附近变化很陡。是x在第i个属性上的取值,线性回归(linear regression)试图学得一个通过属性值的线性组合来进行预测的函数∶。理论上,联系函数g(·)可以是任意函数,比如当g(·)被指定为指数函数时,得到的回归模型称为对数线性回归。的作用下,记y取1的概率为p=P(y=1|X),y取0的概率是1-p,取1和取0的概率之比为。z$转换为0/1值。原创 2022-10-24 09:30:02 · 1737 阅读 · 0 评论 -
数据挖掘—数据预处理
注意:来自多个数据源的现实实体的表达形式是不一样的,有可能不匹配,要考虑实体识别问题和属性冗余问题,从而将源数据在最底层上加以转换、提炼和集成。给定两个数值型的属性A和属性B,根据其属性值,用相关系数度量一个属性在多大程度上蕴含另一个属性。注意:有些异常值可能蕴含着有用的信息,因此,要先分析异常值出现的可能原因,再判断是否应该舍弃。通过 移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值。利用已有的属性集构出新的属性,并加入到现有的属性集当中。原创 2022-10-20 16:33:36 · 4392 阅读 · 0 评论 -
数据挖掘—数据探索
强度相对数:将两个性质不同但有一定联系的总量指标进行对比,用以说明现象的强度、密度和普遍程度,如人均国内生产总值用“元/人”表示,人口密度用“人/平方公里”表 示。脏数据一般是指不符合要求以及不能直接进行相应分析的数据,主要包括:缺失值、异常值、不一致的数据、重复的数据以及含有特殊符号( #、¥、* )的数据。对比分析是把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢以及各种关系是否协调。比例相对数:将同一总体内不同部分的数值进行比较,表明总体内各部分的比例关系。原创 2022-10-14 08:58:24 · 1287 阅读 · 0 评论 -
数据挖掘基础
针对具体的数据挖掘应用需求,首先要明确本次的挖掘目标是什么?系统完成后能够达到什么样的效果。必须分析应用领域(应用中的各种知识和应用目标),了解相关领域的有关情况,熟悉背景知识,弄清用户需求。目标越明确、需求越清晰,数据挖掘成功率越高。针对T餐饮的数据挖掘应用,可定义如下的挖掘目标:1)实现动态菜品智能推荐,帮助顾客快速发现自己感兴趣的菜品,同时确保推荐给顾客的菜品也是餐饮企业期望顾客消费的菜品,实现餐饮消费者和餐饮企业的双赢。原创 2022-10-12 21:40:07 · 2139 阅读 · 0 评论 -
贝叶斯网络预测
• 还需计算P(strong|yes),P(strong|no),P(high|yes),P(high|no),P(cool|yes),P(cool|no),P(sunny|yes),P(sunny|no)• 类标记c:playtennis=yes,playtennis=no,• 需计算P(yes),P(no)选择较大值对应的类标记赋给c(x)用于贝叶斯分类器的数据集。所以预测结果为 no。原创 2022-10-12 14:21:37 · 1515 阅读 · 0 评论 -
信息增益计算和决策树生长过程
给定训练集S,下面以信息增益作为最佳划分的标准,演示信息增益的计算和决策树生长的过程:总共有14条数据,打球9条,不打球的5条根据Outlook进行划分:如下图所示:计算信息增益:E(Outlook)=−914log2914−514log2514E(SSunny)=−25log225−35log235E(SOvercast)=−44log244−04log204E(SRain)=−35log235−25log225Gain(Outlook)=E(Outlook)−[514E(SSunny)+414E(SO原创 2022-10-11 22:50:53 · 1203 阅读 · 0 评论 -
ECharts大屏可视化
本项目是一个基于 Python + Flask + Echarts 打造的一个疫情监控系统,涉及到的技术有:效果展示:网址:https://news.qq.com/zt2020/page/feiyan.htm#/首先我们打开网址,进入网页:现在的网页不会把数据直接放到网页里,而是通过接口从后台向网页传输数据,只要找到数据接口,我们发送请求,就可以得到数据了。下面我们来找接口,按 F12打开检查面板,找到 network 选项,然后刷新页面,选择Fetch/XHR,最上面的两个就是我们要找的接口了。有了接口原创 2022-10-02 10:07:07 · 4581 阅读 · 8 评论 -
2.可视化基础(上)
感知是指事物通过人的感知器官在人脑中形成直接的反映。认知是指人们获得或应用知识的过程,或者加工信息的过程,包括感觉、知觉、想象、记忆、思维等(1)视觉感知是人类大脑的最主要功能之一。眼睛是人体的视觉感知器官, 它有着接收及分析视像的高级能力,最高带宽可达2.3GB/s。(2)人脑功能的50%用于对视觉感知所得信息的处理。我们平时也能注意到视觉感知活动的重要性。例如,报刊、幻灯片、动态图、电影、展板等大量媒介手段都是利用了人类视觉感知的功能。原创 2022-09-25 21:10:37 · 2900 阅读 · 0 评论 -
可视化概述
Visualize,“设想”,表示生成可视化图像,利用可视化方式传递信息;Visualization,“形象化 ”,表示可视化过程,对某个原本不能描述的事物形成一个可感知的画面的过程。在计算机视觉领域,数据可视化是对数据的一种形象直观的解释,实现从不同维度观察数据,从而得到更有价值的信息。抽象的、复杂的、不易理解的数据图形、图像、符号、颜色、纹理等具备较高的识别效率数据本身所包含的有用信息。原创 2022-09-20 11:22:55 · 2305 阅读 · 1 评论