大数据
文章平均质量分 83
xiejava1018
信息系统项目管理师、高级通信工程师、网络信息安全工程师,喜欢打鼓、看书、写代码、旅行。
展开
-
数据安全之认识数据资产管理平台
随着企业数字化转型的深入,数据已经成为企业的重要资产。企业需要更加有效地管理和利用数据,以支持业务决策、优化运营和提高竞争力。本文让我们一起来认识数据资产及数据资产管理平台。原创 2024-02-18 12:53:55 · 2303 阅读 · 0 评论 -
pandas将dataframe列中的list转换为多列
在应用机器学习的过程中,很大一部分工作都是在做数据的处理,一个非常常见的场景就是将一个list序列的特征数据拆成多个单独的特征数据。本文通过几个实例来将dataframe列中的list序列转换为多列。原创 2023-12-26 16:51:13 · 991 阅读 · 0 评论 -
pandas对波形异常数据处理实战
做数据分析很大一部分工作量都是在对数据处理,因为数据来源的质量问题,不能保证所有的数据都是正常的。对于数据分析和处理来说pandas无疑是常用的利器。下面通过一个实例来用pandas对波形异常数据进行实战处理。原创 2023-12-18 11:20:41 · 457 阅读 · 0 评论 -
Python进行数据相关性分析实战
平时在做数据分析的时候,会要对特征进行相关性分析,分析某些特征之间是否存在相关性。本文将通过一个实例来对数据进行相关性分析与展示。原创 2023-08-31 17:55:11 · 2252 阅读 · 0 评论 -
Python实现简单信号滤波实战
在有些项目中需要对信号进行滤波处理,尤其是在医疗的设备中如心跳、脉搏等设备的采样后进行处理。滤波的目的就是除去某些频率的信号如噪声。常见的包括有低通滤波、高通滤波、带通滤波,通过滤波可以过滤到一些无用的噪音,得到的比较平滑的波形,用来进行分析。scipy模块提供了常用简单的信号滤波方法包括低通滤波、高通滤波、带通滤波、带阻滤波等。本文以一个真实的心电数据为例,来实战对心电图某一段时间采样的信号数据进行高通滤波处理,对比一下原始的信号和高通滤波后的信号波形,然后输出成图片文件。原创 2023-03-13 15:11:44 · 1865 阅读 · 0 评论 -
pandas数据处理之数据转换(映射map、替换replace、重命名rename)
我们在数据处理的过程中经常碰到需要对数据进行转换的工作,比如将原来数据里的字典值根据字典转义成有意义的说明,将某些数据转换成其他的数据,将空值转换成其他值,将数据字段名进行重命名等。pandas作为数据处理分析的利器当然为上述的这些数据转换提供了便捷的方法。我们可以利用pandas提供的映射、替换、重命名等操作方便的进行相应的数据转换操作。原创 2022-02-04 21:58:10 · 10334 阅读 · 0 评论 -
pandas数据分析之数据运算(逻辑运算、算术运算、统计运算、自定义运算)
数据分析离不开数据运算,在介绍完pandas的数据加载、排序和排名、数据清洗之后,本文通过实例来介绍pandas的常用数据运算,包括逻辑运算、算术运算、统计运算及自定义运算。原创 2022-02-03 13:01:24 · 5926 阅读 · 0 评论 -
pandas数据清洗之处理缺失、重复、异常数据
在数据分析和建模的过程中,有相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。幸运的是pandas和内置的Python标准库提供了高效、灵活的工具可以帮助我们轻松的做这些事情。本文重点介绍通过pandas进行数据的清洗。数据处理中的清洗工作主要包括对需要分析的数据集中的缺失值(空值)、重复值、异常值的处理。原创 2022-02-02 00:21:01 · 18514 阅读 · 6 评论 -
pandas数据分析之排序和排名(sort和rank)
对数据集进行排序和排名的是常用最基础的数据分析手段,pandas提供了方便的排序和排名的方法,通过简单的语句和参数就可以实现常用的排序和排名。本文以student数据集的DataFrame为例来演示和介绍pandas数据分析之排序和排名(sort和rank)。原创 2022-01-30 09:04:50 · 23154 阅读 · 4 评论 -
pandas数据结构(Series和DataFrame)
简介无可非议,pandas是Python最强大的数据分析和探索工具之一,因金融数据分析工具而开发,支持类似于SQL语句的模型,可以对数据进行增删改查等操作,支持时间序列分析,也能够灵活的处理缺失的数据。它含有使数据分析工作变得更快更简单的高级数据结构和操作工具。pandas是基于NumPy构建的,让以NumPy为中心的应用变得更加简单。这里所说的让pandas变得更快更简单的高级数据结构就是Series和DataFrame。要熟练使用pandas,首先得要熟悉它的这两个主要的数据结构:Series和Da原创 2022-01-23 18:57:38 · 3384 阅读 · 0 评论 -
pandas数据加载(csv、excel、json、mysql、webAPI)
pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。它是使Python成为强大而高效的数据分析环境的重要因素之一。数据的输入是数据分析的第一步,如果不能将数据快速方便的导入导出python,那么pandas不可能成为强大而.原创 2022-01-22 17:20:45 · 2363 阅读 · 0 评论 -
机器学习使用tokenizer.fit_on_texts报‘float‘ object has no attribute ‘lower‘错解决办法
机器学习使用tokenizer.fit_on_texts报'float' object has no attribute 'lower'错解决办法最近在学习机器。在学习过程中使用kaggle中的Womens Clothing E-Commerce Reviews.csv数据集,用Keras分词器Tokenizer,使用tokenizer.fit_on_texts生成词典报'float' object has no attribute 'lower' 错。from keras.preprocessing.原创 2021-08-22 15:11:31 · 3494 阅读 · 0 评论 -
logstash集成kafka,mysql实现数据采集
logstash是一个非常灵活好用的数据采集框架工具,可以通过简单的配置满足绝大多数数据采集场景的需求。采集数据一个非常典型的场景就是将数据先放到kafka队列里削峰,然后从kafka队列里读取数据到mysql或其他存储系统中进行保存。本文通过一个简单的示例来演示从syslog采集日志到kafka然后在从kafka写到mysql数据库中。默认已经安装好了kafka、mysql、logsta...原创 2020-03-16 17:23:15 · 1127 阅读 · 0 评论 -
通过filebeat、logstash、rsyslog采集nginx日志的几种方式
由于nginx功能强大,性能突出,越来越多的web应用采用nginx作为http和反向代理的web服务器。而nginx的访问日志不管是做用户行为分析还是安全分析都是非常重要的数据源之一。如何有效便捷的采集nginx的日志进行有效的分析成为大家关注的问题。本文通过几个实例来介绍如何通过filebeat、logstash、rsyslog采集nginx的访问日志和错误日志。大家都知道ELK技术栈是采集...原创 2020-03-09 22:48:13 · 1199 阅读 · 1 评论