Tableau学习——回归分析、时间序列分析

1 线性回归分析

导入数据并添加趋势线

R平方值:越大越好,表示拟合优度

P值:越小越好,决定了系数(15.9995)的可信程度

选中线——右键——描述趋势线:

工作区右键——添加区域注释:

也可以在分析里面,直接往工作区域里面拖:

2 时间序列分析

可以自动预测拟合

(1)导入数据并将时间改为具体的天数,不能是维度,否则不能预测

(2)工作区右键——预测(日期类型不能错,都得是度量类型),默认为自动预测,意义不大

预测按钮为灰色,可能原因如下,因为跟时间有关,所以时间类型肯定很重要

(3)预测选项可以进行自定义编辑

(4)查看预测的质量等模型参数再来进行自定义的调整

累乘适合数据集变化很大的情况,这种情况累加无法反应

数据下载链接:https://pan.baidu.com/s/1F0V2bvGOLIcM0PgQ1z_BHA?pwd=83g7 
提取码:83g7

### 基于Hadoop的B站视频数据分析系统架构设计 #### 1. 技术选型与环境搭建 为了实现高效的数据处理和分析能力,该系统选用 Hadoop 生态圈中的多个组件来完成不同层次的任务需求。具体来说: - **数据存储层**:利用 HDFS (Hadoop Distributed File System) 来作为底层文件系统的支撑,能够提供高可靠性和扩展性的海量数据存储服务[^3]。 - **计算引擎层**:引入 Spark 或 MapReduce 进行大规模并行运算操作;考虑到实时性要求较高的场景下推荐使用 Apache Spark Streaming 处理流式数据输入。 - **资源调度管理层**:通过 YARN (Yet Another Resource Negotiator),可以有效地管理和分配集群内的各种硬件资源给不同的应用程序实例运行时所需。 - **交互查询接口**:对于上层应用而言,则可借助 Hive SQL 提供类SQL语法支持使得业务人员更容易理解和编写复杂查询逻辑;同时也兼容 Presto/Impala 等分布式SQL执行器用于加速特定类型的读取请求响应速度。 #### 2. 数据采集与预处理阶段 针对 Bilibili 平台上的公开 API 接口获取到原始 JSON 格式的元数据记录之后,在进入正式入库之前还需要经历一系列清洗转换流程以确保后续加工环节顺利开展: - 使用 Python 编写脚本来定期抓取目标网页内容或是调用官方提供的 RESTful Web Service 获取最新发布的多媒体素材详情; - 对收集回来的信息按照既定规则去除噪声项(如HTML标签)、填补缺失字段值、统一日期时间戳格式化表达方式等标准化措施; - 将经过初步整理后的半结构化文档序列化成 Parquet/ORC 文件形式保存至本地磁盘等待下一步传输动作发生前暂存起来备用。 ```python import requests from datetime import datetime, timezone import pyarrow.parquet as pq import pandas as pd def fetch_bilibili_data(api_url): response = requests.get(api_url) data = response.json() df = pd.DataFrame(data['data']) df['timestamp'] = datetime.now(timezone.utc).isoformat() table = pa.Table.from_pandas(df) pq.write_table(table, 'bilibili_videos.parquet') fetch_bilibili_data('https://api.bilibili.com/x/web-interface/newlist?ps=50&tid=0') ``` #### 3. ETL 流程定义及实施策略 ETL 是指 Extract(抽取), Transform(转换), Load(加载) 的缩写术语,这里主要指的是如何把来自外部源端点处获得的第一手资料导入内部仓库之中去的过程描述如下所示: - 利用 Flume/Nifi 工具链路负责监听指定目录下的新增文件事件触发后自动上传至远程服务器节点位置; - Sqoop 可帮助快速迁移关系型数据库表内存量较大的静态历史档案迁移到 NoSQL 类型的目标容器里边儿; - Oozie 调度作业计划安排每日定时启动批处理任务批次循环迭代直至全部完成为止。 #### 4. 数据挖掘建模实践指南 当完成了上述准备工作以后就可以着手准备建立预测模型了,这一步骤往往涉及到特征工程选取哪些维度属性参与训练过程最为合适?算法选择方面有哪些考量因素呢? - 特征提取部分可以从用户行为轨迹追踪路径长度统计量级分布规律出发寻找潜在关联模式线索; - 应用机器学习库 MLlib 中集成好的分类回归树 CART、随机森林 RF、GBDT 梯度提升决策树等多种经典方法论尝试解决实际问题挑战; - 结合 TensorFlow/Keras 开发深度神经网络DNN框架探索更加复杂的非线性映射关系表示可能性空间范围边界拓展研究方向。 #### 5. 可视化展示效果呈现手段探讨 最后但同样重要的一环就是怎样直观形象地向受众传达背后隐藏着的价值洞察力所在之处了——即报表图表图形界面友好程度决定了最终用户体验满意度高低水平差异表现出来: - Tableau PowerBI Qlik Sense 等商业智能 BI 解决方案提供了丰富的模板样式可供定制修改调整满足个性化偏好设定需求; - D3.js Plotly Bokeh Seaborn Matplotlib 等开源 JavaScript 绘图库允许开发者灵活自定义绘制任意形状大小颜色渐变动画特效增强视觉冲击力度吸引注意力停留更长时间间隔周期观察变化趋势走向特点。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值