机器学习
文章平均质量分 85
xiejava1018
信息系统项目管理师、高级通信工程师、网络信息安全工程师,喜欢打鼓、看书、写代码、旅行。
展开
-
Python实现avif图片转jpg格式并识别图片中的文字
在做数据分析的时候有些数据是从图片上去获取的,这就需要去识别图片上的文字。Python有很多库可以很方便的实现OCR识别图片中的文字。这里介绍用EasyOCR库进行图片文字识别。easyocr是一个比较流行的库,支持超过80种语言,识别率高,速度也比较快。原创 2024-01-31 21:01:33 · 1837 阅读 · 0 评论 -
pandas将dataframe列中的list转换为多列
在应用机器学习的过程中,很大一部分工作都是在做数据的处理,一个非常常见的场景就是将一个list序列的特征数据拆成多个单独的特征数据。本文通过几个实例来将dataframe列中的list序列转换为多列。原创 2023-12-26 16:51:13 · 956 阅读 · 0 评论 -
pandas对波形异常数据处理实战
做数据分析很大一部分工作量都是在对数据处理,因为数据来源的质量问题,不能保证所有的数据都是正常的。对于数据分析和处理来说pandas无疑是常用的利器。下面通过一个实例来用pandas对波形异常数据进行实战处理。原创 2023-12-18 11:20:41 · 425 阅读 · 0 评论 -
Python将列表中的数据写入csv并正确解析出来
用Python做数据处理常常会将数据写到文件中进行保存,又或将保存在文件中的数据读出来进行使用。通过Python将列表中的数据写入到csv文件中很多人都会,可以通过Python直接写文件或借助pandas很方便的实现将列表中的数据写入到csv文件中,但是写进去以后取出有些字段会有变化有些坑还是要避免。本文通过实例来介绍如何将列表中的数据写入文件如csv并正确解析出来使用。原创 2023-12-16 21:10:46 · 913 阅读 · 0 评论 -
拥抱AI-ChatGPT:人类新纪元
最近大模型通用智能应用持续发酵,各大科技公司都陆续推出了基于通用大模型的智能应用产品,典型的如OpenAI的ChatGPT、微软的BingChat、百度的文心一言、360的智脑、阿里的通义千问等。当然最火的要属于ChatGPT了,从去年年底推出到现在已经有很多人体验了,并惊叹于如今的人工智能已经发展到无所不知、无所不能的程度了。经过一段时间对ChatGPT的使用,我逐渐认同马占凯马老师《ChatGPT:人类新纪元》书中对“ChatGPT:人类新纪元”的提法。原创 2023-10-28 16:00:55 · 1927 阅读 · 1 评论 -
Python进行数据相关性分析实战
平时在做数据分析的时候,会要对特征进行相关性分析,分析某些特征之间是否存在相关性。本文将通过一个实例来对数据进行相关性分析与展示。原创 2023-08-31 17:55:11 · 2168 阅读 · 0 评论 -
Python实现简单信号滤波实战
在有些项目中需要对信号进行滤波处理,尤其是在医疗的设备中如心跳、脉搏等设备的采样后进行处理。滤波的目的就是除去某些频率的信号如噪声。常见的包括有低通滤波、高通滤波、带通滤波,通过滤波可以过滤到一些无用的噪音,得到的比较平滑的波形,用来进行分析。scipy模块提供了常用简单的信号滤波方法包括低通滤波、高通滤波、带通滤波、带阻滤波等。本文以一个真实的心电数据为例,来实战对心电图某一段时间采样的信号数据进行高通滤波处理,对比一下原始的信号和高通滤波后的信号波形,然后输出成图片文件。原创 2023-03-13 15:11:44 · 1854 阅读 · 0 评论 -
AI机器学习时序序列特征提取实现分类预测实战
最近有位做医疗项目的同学咨询有一批人员的身高、体重、性别、年龄、心电图、是否有心脏病等数据是否可以根据这些数据预测某个人是否有心脏病的迹象。这当然是可以的,AI机器学习不就是干这事的吗?这是一个典型的分类算法。根据这些人体特征来判断是否存在潜在的疾病。问题是如何对心电图进行特征提取,提取出相关的特征,让模型进行学习和训练。本文通过心电图分类模型介绍了从数据处理、时序特征提取、模型训练和效果评估。验证了对于小数据量,通过tsfresh提取时序特征,往往能够取得很好的效果。原创 2023-01-06 20:38:15 · 1347 阅读 · 4 评论 -
什么是用户实体行为分析(UEBA)
UEBA全名User and Entity Behavior Analytics ,即为用户实体行为分析。Gartner 对 UEBA 的定义是“UEBA 提供画像及基于各种分析方法的异常检测,通常是基本分析方法(利用签名的规则、模式匹配、简单统计、阈值等)和高级分析方法(监督和无监督的机器学习等),用打包分析来评估用户和其他实体(主机、应用程序、网络、数据库等),发现与用户或实体标准画像或行为相异常的活动所相关的潜在事件。原创 2022-03-24 15:26:19 · 10286 阅读 · 1 评论 -
pandas快速入门指南
Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)。是学习数据分析、AI机器学习必学组件之一。Pandas 这个名字来源于面板数据(Panel Data)与数据分析(data analysis)这两个名词的组合。在经济学中,Panel Data 是一个关于多维数据集的术语。Pandas 对数据的处理是为数据的分析服务的,它所提供的各种数据处理方法、工具是基于数理.原创 2022-02-23 10:18:19 · 2011 阅读 · 0 评论 -
pandas数据分析之数据绘图
一图胜千言,将信息可视化(绘图)是数据分析中最重要的工作之一。它除了让人们对数据更加直观以外,还可以帮助我们找出异常值、必要的数据转换、得出有关模型的想法等等。pandas 在数据分析、数据可视化方面有着较为广泛的应用。本文将通过实例介绍pandas的数据绘图。原创 2022-02-16 11:28:02 · 5185 阅读 · 0 评论 -
pandas数据分析之数据重塑透视(stack、unstack、melt、pivot)
在数据分析的过程中,分析师常常希望通过多个维度多种方式来观察分析数据,重塑和透视是常用的手段。数据的重塑简单说就是对原数据进行变形,为什么需要变形,因为当前数据的展示形式不是我们期望的维度,也可以说索引不符合我们的需求。对数据的重塑不是仅改变形状那么简单,在变形过程中,数据的内在数据意义不能变化,但数据的提示逻辑则发生了重大的改变。数据透视是最常用的数据汇总工具,它可以根据一个或者多个指定的维度来聚合数据。pandas 也提供了数据透视函数来实现这些功能。如果能熟练区分原创 2022-02-14 00:27:58 · 4293 阅读 · 0 评论 -
pandas数据分析之分组聚合
在数据分析过程中,经常会需要根据某一列或多列把数据划分为不同的组别,然后再对其进行数据分析。本文将介绍pandas的数据分组及分组后的应用如对数据进行聚合、转换和过滤。原创 2022-02-12 09:52:51 · 6851 阅读 · 0 评论 -
pandas数据处理之合并与拼接
在许多应用中,数据可能来自不同的渠道,在数据处理的过程中常常需要将这些数据集进行组合合并拼接,形成更加丰富的数据集。pandas提供了多种方法完全可以满足数据处理的常用需求。具体来说包括有join、merge、concat、append等。原创 2022-02-10 12:44:11 · 7615 阅读 · 0 评论 -
pandas基本操作之数据访问(查看与检索)
对于数据分析来说,在构造或载入数据后最基本的操作应该就是对数据的访问了。看一看数据的结构、组成、分布等,根据需要从数据集中检索提取出相应的数据。pandas作为数据分析的利器,当然提供了多种查看和检索数据的方法。本文就来捋一捋pandas基本的数据访问。一、查看数据当我们拿到数据集后,第一步可能就是查看数据了,一方面是了解拿到的数据集的数据结构,另一方面随机检查一下数据的质量问题。不管是Series还是DataFrame的数据集pandas常用的数据查看方法有:方法操作结果h原创 2022-02-07 23:36:52 · 6241 阅读 · 0 评论 -
pandas数据处理之数据转换(映射map、替换replace、重命名rename)
我们在数据处理的过程中经常碰到需要对数据进行转换的工作,比如将原来数据里的字典值根据字典转义成有意义的说明,将某些数据转换成其他的数据,将空值转换成其他值,将数据字段名进行重命名等。pandas作为数据处理分析的利器当然为上述的这些数据转换提供了便捷的方法。我们可以利用pandas提供的映射、替换、重命名等操作方便的进行相应的数据转换操作。原创 2022-02-04 21:58:10 · 10111 阅读 · 0 评论 -
pandas数据分析之数据运算(逻辑运算、算术运算、统计运算、自定义运算)
数据分析离不开数据运算,在介绍完pandas的数据加载、排序和排名、数据清洗之后,本文通过实例来介绍pandas的常用数据运算,包括逻辑运算、算术运算、统计运算及自定义运算。原创 2022-02-03 13:01:24 · 5886 阅读 · 0 评论 -
pandas数据清洗之处理缺失、重复、异常数据
在数据分析和建模的过程中,有相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。幸运的是pandas和内置的Python标准库提供了高效、灵活的工具可以帮助我们轻松的做这些事情。本文重点介绍通过pandas进行数据的清洗。数据处理中的清洗工作主要包括对需要分析的数据集中的缺失值(空值)、重复值、异常值的处理。原创 2022-02-02 00:21:01 · 18372 阅读 · 6 评论 -
pandas数据分析之排序和排名(sort和rank)
对数据集进行排序和排名的是常用最基础的数据分析手段,pandas提供了方便的排序和排名的方法,通过简单的语句和参数就可以实现常用的排序和排名。本文以student数据集的DataFrame为例来演示和介绍pandas数据分析之排序和排名(sort和rank)。原创 2022-01-30 09:04:50 · 22970 阅读 · 4 评论 -
pandas数据结构(Series和DataFrame)
简介无可非议,pandas是Python最强大的数据分析和探索工具之一,因金融数据分析工具而开发,支持类似于SQL语句的模型,可以对数据进行增删改查等操作,支持时间序列分析,也能够灵活的处理缺失的数据。它含有使数据分析工作变得更快更简单的高级数据结构和操作工具。pandas是基于NumPy构建的,让以NumPy为中心的应用变得更加简单。这里所说的让pandas变得更快更简单的高级数据结构就是Series和DataFrame。要熟练使用pandas,首先得要熟悉它的这两个主要的数据结构:Series和Da原创 2022-01-23 18:57:38 · 3322 阅读 · 0 评论 -
pandas数据加载(csv、excel、json、mysql、webAPI)
pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。它是使Python成为强大而高效的数据分析环境的重要因素之一。数据的输入是数据分析的第一步,如果不能将数据快速方便的导入导出python,那么pandas不可能成为强大而.原创 2022-01-22 17:20:45 · 2339 阅读 · 0 评论 -
机器学习实现恶意URL检测实战一
恶意URL检测的方法很多,这里介绍通过机器学习分析URL文本分词词频来检测恶意URL。训练的数据集为开源数据集,通过机器学习训练检测模型,然后做了部分工程化的应用,将模型持久化,在应用的时候加载进来直接应用,不用重新进行训练。通过接口调用实现恶意URL检测预测判断。恶意URL检测,对应与机器学习是个分类问题,这里分别用逻辑回归和SVM支持向量机分类模型进行模型实现。具体实现过程包括数据载入–>数据处理(分词、向量化处理)–>模型训练–>模型保存–>模型应用项目组织结构如下:原创 2021-12-09 08:51:56 · 12481 阅读 · 25 评论 -
修改成清华镜像源解决Anaconda报The channel is not accessible源通道不可用问题
最近在通过pycharm开发python程序,引用anaconda环境建立虚拟环境时报错,报UnavailableInvalidChannel: The channel is not accessible or is invalid.应该是镜像源访问通道无法访问或无效。现将解决办法记录如下:环境说明:操作系统:win10安装有anaconda 4.10.3pycharm2021.2报错现象:在pycharm中新建python项目,引用anaconda建立虚拟环境时报错报“Unavailable原创 2021-11-26 15:36:07 · 30721 阅读 · 24 评论 -
机器学习使用tokenizer.fit_on_texts报‘float‘ object has no attribute ‘lower‘错解决办法
机器学习使用tokenizer.fit_on_texts报'float' object has no attribute 'lower'错解决办法最近在学习机器。在学习过程中使用kaggle中的Womens Clothing E-Commerce Reviews.csv数据集,用Keras分词器Tokenizer,使用tokenizer.fit_on_texts生成词典报'float' object has no attribute 'lower' 错。from keras.preprocessing.原创 2021-08-22 15:11:31 · 3465 阅读 · 0 评论