自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(142)
  • 收藏
  • 关注

原创 pyspark_自定义udf_解析json列【附代码】

利用Pyspark + udf自定义函数实现大数据并行计算

2023-08-02 13:51:16 414

原创 爬取地铁站数据,计算两点距离

爬取全国地铁站信息数据;计算两个经纬度点之间距离,km为单位

2023-04-04 16:43:15 494 3

原创 锂离子电池热失控预警资料整理(三)

此前 个人搜集了一些锂电池热失控预警相关期刊、文献,并整理了一些个人认为重要的逻辑、知识点,希望通过此分享让有需要的人了解一些内容,如有问题欢迎同我探讨~

2023-01-16 11:27:18 1831

原创 特征工程资料整理,如何从数据中挖掘特征

数据的表达就是原始数据经过clean and transformer得到features的过程,即为特征工程。

2022-12-29 16:55:02 708

原创 锂离子电池热失控预警资料整理(二)

此前 个人搜集了一些锂电池热失控预警相关期刊、文献,并整理了一些个人认为重要的逻辑、知识点,希望通过此分享让有需要的人了解一些内容,如有问题欢迎同我探讨~

2022-11-11 15:12:10 2151

原创 锂离子电池热失控预警资料整理(一)

此前 个人搜集了一些锂电池热失控预警相关期刊、文献,并整理了一些个人认为重要的逻辑、知识点,希望通过此分享让有需要的人了解一些内容,如有问题欢迎同我探讨~

2022-10-31 14:49:21 2910

原创 vLoong能源AI挑战赛——异常检测赛Top2方案开源

新能源车辆电池的故障检测对于及时发现车辆问题、排除隐患、保护人的生命财产安全有着重要意义。新能源电池的故障是多种多样的,包括热失控、析锂、漏液等,本次比赛数据中包含了多种故障类型,但在数据中统一标注为故障标签“1”,不做进一步的区分。

2022-10-28 16:23:59 1097

原创 数据集快速生成方法集合

介绍一些我搜集和整理的数据集快速生成方法及案例

2022-09-16 11:08:56 4675

原创 电池单体一致性云端算法整理

新能源车动力电池组由成百上千个单体电池串并联组成,为新能源车提供足 够的动力和能量以满足其复杂的工况与里程的要求。由于制造过程与使用过程的 差异性,单体电池不一致性会一直存在。当电池组明显出现单体电池不一致性时, 电池组的容量、能量密度等电池性能会明显下降,最终导致电池过早失效。如图所示,电池单体参数相互关系可分为初始状态、当前状态、时间积 累,单体不一致性也主要表现在如图 2-1 中所述的参数。

2022-09-06 14:42:26 1356 2

转载 60种特征工程操作:使用自定义聚合函数【收藏】

通过agg函数,可以同时对多列进行提取特征,非常适合用于特征工程。如果在Pandas内部的聚合函数不满足要求,也可以自定义聚合函数搭配使用。

2022-07-26 16:03:29 196

转载 2022大数据十大关键词

2022年度十大关键词涉及数据从计算机语言到成为生产要素的全生命周期

2022-07-09 14:08:21 504

转载 【收藏】14种异常检测方法总结

14种异常检测方法总结

2022-06-15 22:24:23 302

原创 11种常见的时间序列预测方法

11种常见的时间序列预测方法

2022-05-02 22:01:59 27302 2

原创 Pandas DateTime 超强总结

pandas datetime总结

2022-04-28 17:35:04 1616

原创 时间序列基础-序列分解与序列预测

时间序列分析主要包括两方面内容:第一是序列分解;第二是序列预测。

2022-04-13 23:16:11 3054

原创 锂离子电池热失控预警方法综述

结合了热失控的相关知识,分析了电池出现热失控时出现的温度、内阻、电压、电池内部压力及生成的气体等特征参数,从这些特征参数着手对现有的锂离子电池热失控进行安全预警方法进行了总结并对未来的电池预警发展趋势做了分析与展望。

2022-04-13 17:41:05 5414

转载 HBOS异常点检测

HBOS异常点检测

2022-04-13 17:28:49 356

转载 孤立森林异常点检测

孤立森林异常点检测

2022-04-13 17:05:18 1046

原创 多项式回归处理非线性问题

多项式回归处理非线性问题

2022-04-01 23:17:50 699

转载 九种顶流回归算法及实例总结

九种顶流回归算法及实例总结

2022-03-18 17:40:30 682

原创 gensim-word2vec相似词匹配

1、 下载wiki百科数据维基百科-资料库下载​pages-articles.xml.bz2 为结尾的文件2、 解析wiki百科文本数据python3 wiki_to_txt.py zhwiki-20220201-pages-articles.xml.bz2import loggingimport sysfrom gensim.corpora import WikiCorpusdef main(): if len(sys.argv) != 2: print("

2022-02-24 18:43:42 1008

原创 聚类算法内部度量-si,ch,dbi

聚类算法内部度量-si,ch,dbi

2022-02-24 00:11:57 5230 2

转载 三种常见的超参调优方法及代码

三种常见的超参调优方法及代码实验基础代码一、网格搜索(GridSearch)1.1 GridSearch算法代码1.2 可视化解释二、随机搜索(RandomSearch)三、贝叶斯优化(BO)四、结论超参数调优方法:网格搜索(GridSearch),随机搜索(RandomSearch),贝叶斯优化(BO)等算法。​参考资料:三种超参数优化方法详解,以及代码实现​实验基础代码import numpy as npimport pandas as pdfrom lightgbm.sklearn i

2022-02-07 22:44:33 3181 1

原创 数据挖掘06-基于标准差和箱体图的单指标异常点检测【原理、数据及代码】

数据挖掘06-基于标准差和箱体图的单指标异常点检测一、基于箱体图二、基于标准差三、效果图及数据代码获取方式3.1 原数据3.2 检测结果汇总表格:3.3 数据及代码获取:在数据的处理过程中,不可避免的会产生缺失值、异常值,下面来讲一下我在工作中使用到的两种常见的判断异常值的方法。一、基于箱体图箱体图,即箱线图,从下到上五条线分别表示最小值、下四分位数、中位数、上四分位数和最大值。百度百科-箱线图箱体图是一种用于显示一组数据分散情况资料的统计图,可以通过设定标准,将大于或小于箱体图上下界的数值识别

2021-12-28 22:23:15 1782

原创 时序预测工具库(Prophet)介绍+代码

时序预测工具库(Prophet)一、Prophet 简介二、Prophet 适用场景三、Prophet 算法的输入输出四、Prophet 算法原理六、代码6.1 依赖安装6.2 预测demo6.3 效果图七、参考资料八、官方链接:九、案例链接:项目地址:https://aistudio.baidu.com/aistudio/projectdetail/525311?channelType=0&channel=0参考内容:时间序列模型Prophet使用详细讲解初识Prophet模型(一)--

2021-12-07 23:08:42 19415 5

原创 异常点检测算法工具库(pyod)介绍+代码

异常点检测算法工具库(pyod)一、PyOD介绍二、PyOD主要亮点三、工具库相关重要信息汇总:四、作者介绍:五、API介绍与实例(API References & Examples)六、代码及效果图6.1 代码6.2 效果图项目地址:https://github.com/yzhao062/Pyod#ramaswamy2000efficient参考资料:知乎-用PyOD工具库进行「异常检测」使用PyOD库在Python中进行离群值检测PyOD在线文档CSDN-离群点异常检测及可视化分析

2021-12-07 22:39:18 15629 12

原创 数据挖掘05-偏相关分析【原理、案例、python实现】

数据挖掘05-偏相关分析【原理、案例、python实现】一、需求场景二、偏相关分析简介2.1 引入偏相关分析的原因2.2 什么是偏相关分析2.3 偏相关分析的步骤(1)计算样本的偏相关系数(2)对上一步求得的偏相关系数进行检验三、【案例分析】行驶里程与影响因素的偏相关分析3.1 速度3.2 温度3.3 电压3.4 总电流3.5 小结四、python偏相关分析4.1 数据源4.2 pandas4.2.1 一阶相关系数4.2.2 pcorr()4.3 numpy4.4 sicpy4.5 自己写公式参考资料:

2021-12-01 23:37:14 9776 2

原创 数据挖掘04-不同数据类型的特征处理

数据挖掘04-不同数据类型的特征处理一、特征与目标的概念二、数值型特征处理2.1 归一化2.2 离散化2.3.1 离散化的两种方式2.3.2 两种方式对比2.3 特征缩放2.4 特征标准化三、类别型特征处理3.1 标签编码3.1.1 直接替换字符串3.1.2 该列特征转化为 category 特征,然后再用编码得到的作为数据3.2 自定义二分类3.3 One-Hot编码3.3.1 pandas-get_dummies3.3.2 sklearn-DictVectorizer3.3.3 sklearn-Labe

2021-11-30 23:00:12 2151

原创 推荐系统简介

推荐系统简介一、 标题推荐系统的目的二、推荐系统的基本思想三、推荐系统的数据分析四、推荐系统分类4.1 基于人口统计学4.2 基于内容4.3 基于协同过滤4.3.1 基于用户的协同过滤4.3.2 基于物品的协同过滤4.4 混合推荐五、推荐系统实验方法六、推荐系统的评测指标6.1 评分预测6.2 Top-N推荐6.3 准确率、精确率和召回率七、参考资料一、 标题推荐系统的目的信息过载推荐系统推荐系统是信息过载所采用的措施,面对海量的数据信息,从中快速推荐出符合用户特点的物品。解决一些人的“选择恐惧

2021-11-30 21:44:54 1249

原创 SQL导出数据表格怎么让列头带中文注释

SQL导出数据表格怎么让列头带中文注释实现步骤:1. 查询数据表,导出为csv文件。2. 导出列注释信息3.csv文件中添加中文名称行(也可代码处理)3.1 先粘贴到任意位置,然后右键复制3.2 在英文字段下新增一行,右键【选择性粘贴】,选择【转置】。大功告成我们在处理数据时,表结构复杂的情况下,通常需要将列的英文名称与列的中文注释所对应,如下图:实现步骤:1. 查询数据表,导出为csv文件。方法1:navicat导出表方法2:datagrip导出表方法3:代码读取(python-panda

2021-11-28 15:24:00 3829

原创 Hive简介及常用操作

Hive简介及常用操作一、Hive简介1.1 什么是hive1.2 为什么要使用hive1.3 hive的优缺点优点:缺点二、hive和greenplum1.1 区别1.2 常用数据类型对比1.3 hive复杂数据类型介绍三、常见用法3.1 DDL3.1.1 创建数据库3.1.2 创建一个数据库3.1.3 查看数据库3.1.4 显示数据库详细信息3.1.5 切换数据库3.1.6 常用建表语句3.2 常用关键字/语法3.3 内部表/外部表3.4 分区3.4.1 创建分区表3.4.2 分区表使用① 添加测试数据

2021-11-19 15:57:18 719

原创 大数据入门概念及应用场景

参考内容:【知乎】深入浅出大数据:到底什么是Hadoop?【知乎】五万字 | Hive知识体系保姆级教程​大数据入门概念及应用场景一、入门概念1.1 大数据的4V1.2 大数据处理的最佳工具--Hadoop1.3 Hadoop的核心架构二、一些重要的知识点2.1 HDFS2.1.1 HDFS的写入流程2.1.2 HDFS的读取流程2.1.3 Hadoop1.0版本与2.0版本2.1.4 Hadoop的生态圈2.1.5 Hadoop的优点和应用2.2 HIVE2.2.1 为什么使用hive2.2.2.

2021-11-19 15:50:41 2688

原创 AI算法模型线上部署方法总结

AI算法模型线上部署方法总结一、机器学习算法线上部署方法1.1 三种场景1.2 如何转换PMML,并封装PMML1.3 接下来说一下各个算法工具的工程实践1.3.1 python模型上线:我们目前使用了模型转换成PMML上线方法。1.3.2 R模型上线-这块我们用的多,可以用R model转换PMML的方式来实现。1.3.3 Spark模型上线-好处是脱离了环境,速度快。1.4 只用Linux的Shell来调度模型的实现方法—简单粗暴1.5 说完了部署上线,说一下模型数据流转的注意事项二、机器学习算法的部署

2021-11-08 18:54:54 12188 2

原创 数据挖掘03-机器学习中了解数据特征的重要方法

数据挖掘03-机器学习中了解数据特征的重要方法一、分布分析1.1 理论介绍1.2 二手房数据分析案例1.2.1 参考房价定量分析一、分布分析1.1 理论介绍1.2 二手房数据分析案例1.2.1 参考房价定量分析一、分布分析1.1 理论介绍1.2 二手房数据分析案例1.2.1 参考房价定量分析1.2.2 房屋朝向定性分析二、对比分析2.1 理论介绍2.2 产品销量数据分析案例2.2.1 绝对数比较案例2.2.2 相对数比较案例:三、统计分析3.1 理论介绍3.2 数据分析案例:四、帕累托分析4.1 理论介绍4

2021-10-30 13:25:01 552

原创 推荐系统入门【分类、传统推荐算法、UserCF和ItemCF】

推荐系统入门【分类、传统推荐算法、UserCF和ItemCF】一、推荐系统分类二、传统推荐算法2.1 基于规则的推荐2.2 基于内容的推荐2.3 基于协同过滤的推荐(1)建立用户-项目评分矩阵(2)寻找最近邻(3)产生推荐2.4 基于混合模式的推荐三、存在的问题与挑战3.1 数据稀疏性3.2 特征抽取3.3 冷启动3.4 可扩展性四、UserCF和ItemCF4.1 User-based CF 基于用户的协同过滤4.2 Item-based CF 基于商品的协同过滤4.3 优缺点说明一、推荐系统分类推荐

2021-10-26 17:37:50 1790

原创 数据挖掘02-特征工程良好特征的特点

数据挖掘02-特征工程良好特征的特点一、特征工程简介二、将原始数据映射到特征2.1 映射数值2.2 映射分类值2.2.1 独热编码2.3 稀疏表示法三、良好特征的特点3.1 避免很少使用的离散特征值3.2 最好具有清晰明确的含义3.3 实际数据内不要掺入特殊值3.4 考虑上游不稳定性3.5 清理数据3.6 缩放特征值3.7 处理极端离群值3.8 分箱3.9 清查3.10 了解数据四、特征组合:对非线性规律进行编码4.1 特征组合的种类五、特征组合:组合独热矢量一、特征工程简介传统编程的关注点是代码。

2021-09-15 00:10:19 324

原创 智能语音助手调研【简单可行方案及开源代码】

智能语音助手调研需求:方案一:百度智能对话AI产品(3个)方案二:阿里AI语音助手方案三:科大讯飞语音助手部署方式:不收费版本:集成方案简单可行方案及开源代码????????????一、Pocketsphinx二、基于PPASR的语音识别三、基于ASRT的语音识别需求:像百度等是否有语音智能助手,利用语音来检索知识可以私有化部署方案一:百度智能对话AI产品(3个)百度AI市场-智能对话百度-DuerOS智能语音助理解决方案DuerOS智能语音手机助手百度智能对话定制与服务平台UNIT

2021-09-14 22:50:44 2779

原创 pandas.df生成sql语句字符串

pandas.df生成sql语句字符串Pandas.to_sql用法df生成SQL字符串CREATE字符串INSERT字符串pandas有一个to_sql函数,但它只在数据库连接上工作,不能生成字符串。Pandas.to_sql用法Pandas.to_sql-官方API文档DataFrame.to_sql(name, con, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=No

2021-09-13 10:55:50 1611 1

原创 数据挖掘01-相关性分析及可视化【Pearson, Spearman, Kendall】

数据挖掘01-相关性分析及可视化【Pearson, Spearman, Kendall】简介一、什么是相关性分析二、常见的相关性分析方法三、Pearson相关系数使用pandas对数据做Pearson相关性分析四、Spearman等级相关系数4.1 什么是等级相关4.2 为什么要运用等级相关?4.3 使用pandas对数据做Spearman相关性分析五、Kendall相关系数使用pandas对数据做Kendall相关性分析六、下三角相关性矩阵七、重点相关性矩阵八、参考资料:简介​ 有这么一句话在业界广

2021-09-12 22:09:17 20481

原创 Tableau数据可视化软件下载、双轴下钻显示

Tableau基础用法、破解版下载、双轴下钻显示【目录】在线教程:[Tableau在线教程-w3cschool](https://www.w3cschool.cn/tableau/tableau_overview.html)一、概述Tableau功能二、入门2.1 连接到数据源2.2 选择尺寸和度量2.3 应用可视化技术三、高级3.1 双轴显示3.2 下钻显示四、常见问题4.1 tableau破解版安装4.2 Mysql驱动安装配置ODBC在线教程:Tableau在线教程-w3cschool一、概述作

2021-08-31 11:10:06 484

NASA锂电池老化数据集及代码【5套】

自己搜集的NASA锂电池老化数据集及代码,文件夹424MB 附带真实数据与解析的代码5套,如有需要,肯定能满足你的需求

2022-09-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除