大数据
文章平均质量分 70
饕子
我是北大信息管理系大数据管理与应用方向学生,我对人工智能、计算机视觉、计算机图形学、文本挖掘、搜索引擎、机器学习(深度学习)、计算神经科学、知识图谱、NLP等方向感兴趣。
展开
-
数据科学家的必备利器:Matplotlib掌握指南,绘就数据美学之路
在开始学习之前,我们先来了解一下Matplotlib的背景和基本概念。Matplotlib是一个开源的数据可视化库,由John D. Hunter于2003年创建。它提供了类似于MATLAB的绘图接口,使用户能够方便地创建各种类型的图表和图形。本篇博客对Matplotlib进行了详细而全面的介绍,涵盖了其基本绘图功能和常见的高级用法。希望通过本篇博客,读者能够掌握Matplotlib的使用技巧,提升数据可视化的能力。如果你对Matplotlib有任何问题或意见,欢迎在评论区留言,我将尽力解答。原创 2023-07-26 20:49:32 · 46 阅读 · 0 评论 -
Splunk 详解,数据洞察的魔法!
在本节中,我们将先从Splunk的基本概念入手,了解它是什么以及为什么它在当今的数据分析领域如此受欢迎。通过本文的介绍,你已经初步了解了Splunk这个强大的数据分析和可视化工具。它可以帮助企业和个人高效地处理和分析海量数据,从而发现潜在的商业机会和问题。如果你想深入学习和应用Splunk,在官方文档和社区中都能找到更多资源。祝你在数据的海洋中探索出新的奇迹!原创 2023-07-30 21:41:16 · 813 阅读 · 0 评论 -
ELK Stack(Elasticsearch、Logstash、Kibana)详解
Elasticsearch是一个分布式、可扩展、实时的搜索和分析引擎,基于Apache Lucene。它通过建立索引和搜索文档,提供了强大的全文搜索和实时分析能力。Logstash是一款开源的数据收集和处理工具,用于采集、转换和传输各种类型的数据,例如日志文件、数据库中的数据等。它支持多种输入源和输出目的地。Kibana是一个开源的数据可视化平台,用于在Elasticsearch上进行数据分析和交互式查询。它提供了丰富的图表、表格和地图等可视化组件,帮助用户更好地理解和分析数据。原创 2023-07-24 15:20:24 · 261 阅读 · 0 评论 -
因子分析:因子旋转,超全解释
因子分析是一种数据分析方法,用于识别和描述观察变量间的关系。其目的是确定多个可观察变量(即项数)之间的较少数量的潜在因素或综合指标,从而反映出这些变量的共同方面。举个例子,假设你正在研究消费者购买产品的行为。你有很多关于消费者的数据,如他们的性别、年龄、教育水平、收入水平等等。但是,如果你想了解这些变量如何影响他们购买决策的因素,因子分析可能会帮助你找到一些潜在因素,例如购买倾向、品牌忠诚度等等。因子旋转是因子分析中一个非常重要的步骤。原创 2023-06-16 22:28:26 · 2602 阅读 · 1 评论 -
MapReduce算法综合实战,超全!!(内含代码)
MapReduce是一种用于大规模数据处理的分布式计算框架,其核心思想是将复杂的计算任务分解成若干个简单的子任务,并在多个计算节点上并行执行,最后再将结果合并。MapReduce框架包含两个步骤:Map阶段和Reduce阶段。在实际应用中,可以通过采用数据本地化、组合操作、增量式处理等多种优化策略来提高MapReduce的处理效率。原创 2023-06-14 23:23:06 · 1202 阅读 · 0 评论 -
非平稳时间序列的分析
本文介绍了时间序列的预处理步骤,包括数据读取与观察、缺失值处理、时间重采样、平稳性检验与处理等。希望对大家有所帮助!原创 2023-07-19 20:02:43 · 1614 阅读 · 0 评论 -
用户自定义的移动窗口函数
移动窗口函数是一种广泛应用于时间序列分析和信号处理领域的一种技术。它可以用来平滑数据、计算移动平均值和移动方差等统计量,以及检测异常点等。在本篇文章中,我们将介绍如何使用Python实现用户自定义的移动窗口函数,并通过具体例子演示其应用。原创 2023-05-22 21:46:55 · 284 阅读 · 0 评论 -
指数型移动平均函数
本文介绍了指数型移动平均函数的基本概念和应用,以及如何使用pandas库来进行指数型移动平均。希望对大家有所帮助!原创 2023-05-22 21:45:23 · 97 阅读 · 0 评论 -
二元移动窗口函数
本文介绍了二元移动窗口函数的基本概念和应用,以及如何使用Python中的scipy库来进行二元移动窗口函数。希望对大家有所帮助!原创 2023-05-22 21:43:53 · 36 阅读 · 0 评论 -
OHLC重采样学习笔记
本文介绍了OHLC重采样的基本概念和应用,以及如何使用Python中的pandas库来进行OHLC重采样。希望对大家有所帮助!原创 2023-05-22 21:42:17 · 558 阅读 · 0 评论 -
python中日期的频率
而 pandas 库则是处理时间序列数据的利器,它提供了灵活、高效、易用的时间序列数据结构和操作工具。滑动时间窗口是指对时间序列数据进行滑动的分组计算,其基本思想是将时间序列数据划分为若干个固定长度的子窗口,对每个子窗口进行聚合计算。时间偏移量(Time offset)指的是时间增量,例如两个日期之间相差的天数、小时数等。时间频率(Time Frequency)是指时间序列的单位间隔,例如日、周、月、季度、年等。pandas 库提供了更高层次的时间序列重采样操作,用于将时间序列从一个频率转换为另一个频率。原创 2023-05-22 17:28:53 · 343 阅读 · 0 评论 -
移动窗口函数学习笔记
移动窗口函数是一种常见的时间序列数据处理方法。常用的移动窗口函数包括滑动平均值、滑动最大值和最小值、滑动标准差等。在Python中,我们可以使用pandas和numpy库来实现移动窗口函数的计算过程。熟练掌握移动窗口函数的应用场景和实现方法,对于进行时间序列数据分析和应用都有着较大的帮助。原创 2023-05-22 17:18:05 · 1802 阅读 · 0 评论 -
时间序列的重采样学习笔记
时间序列的重采样是对时间序列数据进行调整、汇总和计算的重要方法之一。常用的时间序列的重采样方法包括重采样和滚动窗口等。熟练掌握时间序列的重采样方法,对于进行时间序列数据分析和应用都有着较大的帮助。原创 2023-05-22 17:13:20 · 651 阅读 · 0 评论 -
面板数据学习笔记
面板数据是经济学、金融学等领域中常见的数据类型,通常用于描述个体、时间和变量之间的关系。面板数据的描述统计方法包括计算中心位置、离散程度和分布情况等指标,而推断统计方法则主要包括固定效应模型和随机效应模型等技术。熟练掌握面板数据的统计学基础知识,对于进行数据分析和应用都有着重要的指导作用。原创 2023-05-22 17:11:36 · 987 阅读 · 0 评论 -
截面数据学习笔记
截面数据是统计学中一种常见的数据类型,通常用于描述人口统计学、社会学等领域中各种随机变量在某一时刻的特征情况。截面数据的描述统计方法包括计算中心位置、离散程度和分布情况等指标,而推断统计方法则主要包括参数估计和假设检验等技术。熟练掌握截面数据的统计学基础知识,对于进行数据分析和应用都有着重要的指导作用。原创 2023-05-22 17:07:00 · 1631 阅读 · 0 评论 -
随机实验学习笔记
随机实验是医学研究和社会科学研究中最常用的研究设计之一,它通过随机分配研究对象到处理组和对照组,比较两组的结果来评估治疗效果或政策效果。随机实验设计需要考虑多个因素,包括样本选择、随机化方案、对照组设计等。在数据分析时需要进行描述性统计分析、差异分析和效应估计等分析,以得出有效的结论。原创 2023-05-22 16:49:39 · 243 阅读 · 0 评论 -
工具变量法学习笔记
工具变量法是解决内生性问题的一种常用方法,它通过引入“工具变量”来消除自变量与误差之间的相关性,从而得到更加准确和可靠的估计结果。在实践中,需要选择合适的工具变量,并结合对经济理论的深刻理解和实际数据的特点进行应用。原创 2023-05-22 16:36:41 · 3423 阅读 · 0 评论 -
自相关模型学习笔记
自回归模型是一种用于描述时间序列在不同时刻之间相关性的线性模型。它可以帮助我们了解时间序列的性质和特征,进而进行预测和分析。在实际应用中,需要结合具体的问题和数据特点选择合适的自回归模型,并进行相应的模型识别、参数估计和模型检验等后续处理。原创 2023-05-22 16:24:40 · 448 阅读 · 0 评论 -
自相关函数学习笔记
自相关函数是时间序列分析中的重要概念,用于描述时间序列在不同时刻之间的相关性。它可以帮助我们了解时间序列的性质和特征,进而进行预测和分析。在实际应用中,需要结合具体的问题和数据特点选择合适的自相关函数计算方法和模型,并进行相应的模型诊断、预测和分析等后续处理。原创 2023-05-22 16:19:56 · 2783 阅读 · 0 评论 -
协整检验学习笔记
协整检验是用来检验两个或多个时间序列之间是否存在稳定的线性关系的方法。它可以帮助我们找到时间序列数据中的规律和趋势,并进而进行预测和决策。在实际应用中,需要根据具体的数据特点选择合适的检验方法和模型,以提高建模和预测的准确性。原创 2023-05-22 16:18:32 · 3199 阅读 · 0 评论 -
时间序列差异性分析
时间序列差异性分析是时间序列分析中的重要环节之一。通过平稳性检验和自相关性检验,我们可以将时间序列数据的趋势性、季节性和随机性分离出来,并进行相应的预测和决策。在实际应用中,需要根据具体的数据特点选择合适的检验方法和模型,以提高建模和预测的准确性。原创 2023-05-22 16:15:23 · 1180 阅读 · 0 评论 -
时间序列平稳性检验
平稳性是时间序列分析中的一个重要概念,它指的是时间序列的统计特征在不同时间段上是不发生明显变化的。具体来说,如果一个时间序列是平稳的,那么它的均值、方差和自相关系数等统计量都不会随着时间的推移而发生显著的变化。为了确定一个时间序列是否是平稳的,需要进行平稳性检验。常见的平稳性检验方法包括基于统计量的检验方法,如ADF检验、KPSS检验和PP检验等,以及基于谱分析的检验方法,如周期图谱检验和相关谱检验等。原创 2023-05-22 16:09:11 · 2686 阅读 · 0 评论 -
数据科学学习笔记
本文仅是数据科学领域知识的一个简单介绍,希望读者能够通过本文对数据科学有一个初步的了解,并在此基础上深入学习。原创 2023-05-15 21:39:55 · 56 阅读 · 0 评论 -
数据可视化:d3
D3库是一个非常强大、灵活的数据可视化工具,可以帮助开发者快速、便捷地创建各种类型的数据可视化图表。本篇文章介绍了D3库的基本概念和使用方法,包括如何创建简单的图表、如何进行数据绑定和处理以及如何添加交互和动画效果等。希望读者能够通过本篇文章了解并掌握D3库的基础知识,从而更好地应用D3库进行数据可视化。原创 2023-05-13 10:01:32 · 1631 阅读 · 0 评论 -
支持度、置信度学习笔记
支持度(Support)是指数据集DDD中包含某个项集XXX的记录所占的比例。SuppXfreqX∣D∣SuppX∣D∣freqX其中freqXfreq(X)freqX表示包含XXX的记录数,∣D∣|D|∣D∣表示数据集DDD中记录的总数。置信度(Confidence)是指数据集DDD中包含项集XXX的记录中同时包含另一个项集YYY的比例。原创 2023-05-10 13:14:15 · 2657 阅读 · 0 评论 -
泛在计算学习笔记
本文介绍了泛在计算的相关概念、技术和应用,泛在计算技术已经广泛地应用于智能家居、智能交通、智能医疗等领域。相信随着技术的不断进步和人们对智能化生活的需求不断增加,泛在计算技术会得到更广泛的应用和发展。原创 2023-05-07 22:32:26 · 168 阅读 · 0 评论 -
关联规则挖掘
本篇博客从原理、分类、算法、应用和发展趋势五个方面对关联规则挖掘进行了全面的介绍和探讨。尽管关联规则挖掘仍然存在一些问题和挑战,但是它已经成为了数据挖掘领域中一个非常重要的研究方向。未来,我们有理由相信,在新的技术和方法的驱动下,关联规则挖掘将会更加强大和精确,为我们带来更多的价值。原创 2023-05-07 06:41:42 · 116 阅读 · 0 评论 -
Spark从入门到实战(附实战代码)
本文介绍了Spark的安装与配置、Spark的核心概念RDD、Spark的转换操作和行动操作。Spark是一个强大的分布式计算引擎,可以帮助我们处理大规模的数据集。原创 2023-05-06 00:10:33 · 2268 阅读 · 0 评论