Python自学
文章平均质量分 86
SeafyLiang
即使再小的帆,也能远航️
展开
-
pyspark_自定义udf_解析json列【附代码】
利用Pyspark + udf自定义函数实现大数据并行计算原创 2023-08-02 13:51:16 · 571 阅读 · 0 评论 -
特征工程资料整理,如何从数据中挖掘特征
数据的表达就是原始数据经过clean and transformer得到features的过程,即为特征工程。原创 2022-12-29 16:55:02 · 787 阅读 · 0 评论 -
数据集快速生成方法集合
介绍一些我搜集和整理的数据集快速生成方法及案例原创 2022-09-16 11:08:56 · 5445 阅读 · 0 评论 -
【收藏】14种异常检测方法总结
14种异常检测方法总结转载 2022-06-15 22:24:23 · 342 阅读 · 0 评论 -
11种常见的时间序列预测方法
11种常见的时间序列预测方法原创 2022-05-02 22:01:59 · 28347 阅读 · 2 评论 -
Pandas DateTime 超强总结
pandas datetime总结原创 2022-04-28 17:35:04 · 1852 阅读 · 0 评论 -
时序预测工具库(Prophet)介绍+代码
时序预测工具库(Prophet)一、Prophet 简介二、Prophet 适用场景三、Prophet 算法的输入输出四、Prophet 算法原理六、代码6.1 依赖安装6.2 预测demo6.3 效果图七、参考资料八、官方链接:九、案例链接:项目地址:https://aistudio.baidu.com/aistudio/projectdetail/525311?channelType=0&channel=0参考内容:时间序列模型Prophet使用详细讲解初识Prophet模型(一)--原创 2021-12-07 23:08:42 · 26667 阅读 · 5 评论 -
异常点检测算法工具库(pyod)介绍+代码
异常点检测算法工具库(pyod)一、PyOD介绍二、PyOD主要亮点三、工具库相关重要信息汇总:四、作者介绍:五、API介绍与实例(API References & Examples)六、代码及效果图6.1 代码6.2 效果图项目地址:https://github.com/yzhao062/Pyod#ramaswamy2000efficient参考资料:知乎-用PyOD工具库进行「异常检测」使用PyOD库在Python中进行离群值检测PyOD在线文档CSDN-离群点异常检测及可视化分析原创 2021-12-07 22:39:18 · 16919 阅读 · 12 评论 -
数据挖掘05-偏相关分析【原理、案例、python实现】
数据挖掘05-偏相关分析【原理、案例、python实现】一、需求场景二、偏相关分析简介2.1 引入偏相关分析的原因2.2 什么是偏相关分析2.3 偏相关分析的步骤(1)计算样本的偏相关系数(2)对上一步求得的偏相关系数进行检验三、【案例分析】行驶里程与影响因素的偏相关分析3.1 速度3.2 温度3.3 电压3.4 总电流3.5 小结四、python偏相关分析4.1 数据源4.2 pandas4.2.1 一阶相关系数4.2.2 pcorr()4.3 numpy4.4 sicpy4.5 自己写公式参考资料:原创 2021-12-01 23:37:14 · 12019 阅读 · 2 评论 -
数据挖掘04-不同数据类型的特征处理
数据挖掘04-不同数据类型的特征处理一、特征与目标的概念二、数值型特征处理2.1 归一化2.2 离散化2.3.1 离散化的两种方式2.3.2 两种方式对比2.3 特征缩放2.4 特征标准化三、类别型特征处理3.1 标签编码3.1.1 直接替换字符串3.1.2 该列特征转化为 category 特征,然后再用编码得到的作为数据3.2 自定义二分类3.3 One-Hot编码3.3.1 pandas-get_dummies3.3.2 sklearn-DictVectorizer3.3.3 sklearn-Labe原创 2021-11-30 23:00:12 · 2561 阅读 · 0 评论 -
SQL导出数据表格怎么让列头带中文注释
SQL导出数据表格怎么让列头带中文注释实现步骤:1. 查询数据表,导出为csv文件。2. 导出列注释信息3.csv文件中添加中文名称行(也可代码处理)3.1 先粘贴到任意位置,然后右键复制3.2 在英文字段下新增一行,右键【选择性粘贴】,选择【转置】。大功告成我们在处理数据时,表结构复杂的情况下,通常需要将列的英文名称与列的中文注释所对应,如下图:实现步骤:1. 查询数据表,导出为csv文件。方法1:navicat导出表方法2:datagrip导出表方法3:代码读取(python-panda原创 2021-11-28 15:24:00 · 4152 阅读 · 0 评论 -
AI算法模型线上部署方法总结
AI算法模型线上部署方法总结一、机器学习算法线上部署方法1.1 三种场景1.2 如何转换PMML,并封装PMML1.3 接下来说一下各个算法工具的工程实践1.3.1 python模型上线:我们目前使用了模型转换成PMML上线方法。1.3.2 R模型上线-这块我们用的多,可以用R model转换PMML的方式来实现。1.3.3 Spark模型上线-好处是脱离了环境,速度快。1.4 只用Linux的Shell来调度模型的实现方法—简单粗暴1.5 说完了部署上线,说一下模型数据流转的注意事项二、机器学习算法的部署原创 2021-11-08 18:54:54 · 12955 阅读 · 2 评论 -
pandas.df生成sql语句字符串
pandas.df生成sql语句字符串Pandas.to_sql用法df生成SQL字符串CREATE字符串INSERT字符串pandas有一个to_sql函数,但它只在数据库连接上工作,不能生成字符串。Pandas.to_sql用法Pandas.to_sql-官方API文档DataFrame.to_sql(name, con, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=No原创 2021-09-13 10:55:50 · 1795 阅读 · 1 评论 -
常见时序算法集合【资源整理】
常见时序算法集合学习资料1:十大时序算法模型十大时序算法模型学习资料2:Kats时间序列王器-Kats1. Kats的优势2. Kats的功能学习资料3:NeuralProphetNeuralProphet1. Prophet2. NeuralProphet3. NeuralProphet VS Prophet学习资料4:ProphetProphet 简介Prophet 适用场景Prophet 算法的输入输出Prophet 算法原理与机器学习算法的对比代码参考资料官方链接:案例链接:学习资料1:十大时序算原创 2021-08-31 10:32:20 · 2336 阅读 · 0 评论 -
图解最常用10大机器学习算法
图解最常用10大机器学习算法01 线性回归02 逻辑回归03 线性判别分析04 分类和回归树05 朴素贝叶斯06 K临近07 学习矢量量化08 支持向量机09 bagging和随机森林10 Boosting和AdaBoost01 线性回归线性回归可能是统计学和机器学习中最知名和最易理解的算法之一。由于预测建模主要关注最小化模型的误差,或者以可解释性为代价来做出最准确的预测。 我们会从许多不同领域借用、重用和盗用算法,其中涉及一些统计学知识。线性回归用一个等式表示,通过找到输入变量的特定权重(B),来转载 2021-04-16 21:21:57 · 405 阅读 · 0 评论 -
数据挖掘07-数据分析之缺失值处理【方法+代码】
数据分析之缺失值填充(方法+代码)数据缺失的原因数据缺失的类型缺失处理方式1:删除方式2:常量填充方式3:插值填充方式4:KNN填充方式5:随机森林填充效果预览圣人曾说过:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。再好的模型,如果没有好的数据和特征质量,那训练出来的效果也不会有所提高。数据质量对于数据分析而言是至关重要的,有时候它的意义会在某种程度上会胜过模型算法。数据缺失的原因首先我们应该知道:**数据为什么缺失?**数据的缺失是我们无法避免的,可能的原因有很多种,博主原创 2021-04-13 16:26:56 · 9502 阅读 · 9 评论 -
pandas-groupby常见用法
pandas-groupby常见用法groupby过程图解8个常见用法代码地址(可在线预览)????????加载 sklearn-鸢尾花 公开数据集生成groupby对象1. 创建评率表2. 计算常用的描述统计量3. 查找最大值(最小值)索引4. groupby后重置索引5. 多种统计量汇总6. 特定列的聚合7. NamedAgg命名统计量8. 使用自定义函数groupby过程图解 总的来说,groupby的过程就是将原有的DataFrame按照groupby的字段(这里是company),划分为若原创 2021-04-03 23:51:08 · 1137 阅读 · 6 评论 -
数据清洗、数据挖掘常见十大问题
数据清洗、数据挖掘常见十大问题一、数据预处理、数据清洗和特征工程二、数据预处理和特征工程阶段**最常见的10个问题**1. 什么是数据 EDA?2. 缺失值的处理方式有哪些?3. 如何检测异常数据?如何处理?4. 什么是特征工程?有什么作用?5. 特征工程的一般步骤是什么?6. 特征衍生的方法有哪些?7. 对于时间序列特征、连续特征、离散特征如何做特征转换的?8. 如何处理样本不平衡问题?9. 特征筛选的作用和目的?10. 特征筛选的方法有哪些?优缺点各是什么?10.1 过滤法 Filter:10.2 嵌入原创 2021-04-03 23:21:24 · 3743 阅读 · 2 评论 -
pandas常用操作大全,最全!附文档下载
????????工作中最近常用到pandas做数据处理和分析,总结了以下常用内容。????如想下载到本地可访问以下地址pandas常用速查-githubpandas常用速查-giteepandas常用操作大全pandas常用速查引入依赖算法相关依赖获取数据生成df重命名列增加列缺失值处理独热编码替换值删除列数据筛选差值计算数据修改时间格式转换设置索引列折线图散点图柱状图热力图66个最常用的pandas数据分析函数从各种不同的来源和格式导入数据导出数据创建测试对象查看、检查数据数据选取数据清理筛原创 2021-03-30 23:14:35 · 2307 阅读 · 7 评论 -
Python中使用日志-logging模块
Python自带的logging模块,很简单就能实现日志的配置和打印,它有两种用法,方法1是把日志输出到标准输出,其实就是命令行界面,方法2则是输出日志到文件,更加方便。方法1:配置并输出日志到标准输出"""方法1:配置并输出日志到标准输出"""LOG_FORMAT = "%(asctime)s - %(levelname)s - %(message)s"logging.basicConfig(level=logging.DEBUG, format=LOG_FORMAT)logging..原创 2021-03-30 23:01:23 · 374 阅读 · 1 评论 -
Autoencoder异常检测 - Paddle2.0实现时序数据异常检测
Autoencoder异常检测 - Paddle2.0实现时序数据异常检测Autoencoder异常检测 - Paddle2.0实现时序数据异常检测1.Autoencoder简介2.Autoencoder无监督异常检测3.Paddle2.0基于AUTOENCODER实现异常时序检测4.参考内容:Autoencoder异常检测 - Paddle2.0实现时序数据异常检测Autoencoder算法是一种常见的基于神经网络的无监督学习降维方法。1.Autoencoder简介Autoencoder,中文称作原创 2021-02-20 15:55:41 · 1504 阅读 · 0 评论 -
Python代码加密 - 4种方案
Python代码加密 - 4种方案Python代码加密 - 4种方案1、发行 .pyc文件1)原理2)步骤3)优点4)缺点2、代码混淆1)原理2)步骤方法①: 使用oxyry进行混淆方法②: 使用pyobfuscate库进行混淆3)优点4)缺点3、使用py2exe1)原理2)步骤(只能在windos运行)3)优点4)缺点4、使用Cython1)原理2)步骤3)优点4)缺点Python代码加密 - 4种方案发行.pyc文件(????)代码混淆(????)使用py2exe(仅限windows)使用C原创 2020-12-23 10:40:44 · 8925 阅读 · 2 评论 -
python环境依赖相关操作小结(whl、requirements.txt、离线下载和安装依赖)
python环境依赖相关操作小结(whl、requirements.txt)python环境依赖相关操作小结(whl、requirements.txt)1、Python加载外部依赖 .whl2、python导出依赖成whl文件3、一键导出环境依赖及安装环境依赖4、离线下载和安装python环境依赖python环境依赖相关操作小结(whl、requirements.txt)1、Python加载外部依赖 .whl下载到.whl文件切到whl文件同级目录,使用命令 pip install xxx.whl原创 2020-12-21 15:04:07 · 5257 阅读 · 2 评论 -
Python自学 day06 ---Matplotlib
同之前先在此放一些大佬写好的总结吧~转载自大佬:止战 --> Python--matplotlib绘图可视化知识点整理Notzuonotdied --> Python Matplotlib简易教程以下是本菜鸟练习的笔记..import matplotlib.pyplot as pltimport numpy as npfrom mpl_toolkits.mpl...原创 2018-11-05 20:59:38 · 323 阅读 · 0 评论 -
Python自学 day05 ---Numpy&Pandas 数据结构
同之前先在此放一些大佬写好的总结吧~转载自大佬:zhang_xinxiu -->【Machine learning(python篇)】-几种常用的数据结构渔单渠 --> python--Numpy and Pandas 基本语法以下是本菜鸟练习的笔记..# <editor-fold desc="Numpy属性"># import numpy as n...原创 2018-11-04 21:27:57 · 266 阅读 · 0 评论 -
Python自学 day07 --- Tensorflow 简单入门
同之前先在此放一些大佬写好的总结吧~转载自大佬:Doit_ --> Tensorflow基础知识与神经网络构建--step by step 入门TensorFlow(一)drilistbox --> TensorFlow入门深度学习--01.基础知识以下是本菜鸟练习的笔记..import tensorflow as tfimport numpy as np# ...原创 2018-11-06 23:42:49 · 197 阅读 · 0 评论 -
Python自学 day04 ---Tkinter GUI视图 简单的登录实现
学习自莫烦Python由于时间精力有限,就不整理了,在此放一些大佬写好的总结吧~转载自大佬:aa3214567 --> Python初学——窗口视窗Tkinter以下是本菜鸟练习的笔记..# <editor-fold desc="简单的窗口视图"># # 简单的窗口视图# import tkinter as tk### window = tk.Tk(...原创 2018-11-03 23:05:31 · 311 阅读 · 0 评论 -
Python自学 day03 ---Python基础
由于时间精力有限,就不整理了,在此放一些大佬写好的总结吧~转载自大佬:双斜杠少年 --> python 语法学习小结以下是本菜鸟练习的笔记..# <editor-fold desc="一维列表基本操作"># list# a = [1, 2, 3, 4, 5]# a.append(0) # list后面累加# a.insert(0, 111) ...原创 2018-11-02 22:05:56 · 216 阅读 · 0 评论 -
Python自学 day02 ---简单爬虫(文字及图像)
import reimport urllib.requestfrom bs4 import BeautifulSoupdef get_html(url): page = urllib.request.urlopen(url) html = page.read().decode('utf-8') return htmldef get_img(html): ...原创 2018-10-31 23:55:31 · 220 阅读 · 0 评论 -
Python自学 day01 ---图片转字符画
初学Python,在网上看到Python图片转字符画的教程,我也来尝试下。 首先我们要用到Python的PIL库的Image模块,PIL(Python Imaging Library)库是Python的一个图像处理库。想了解PIL的详细功能介绍,可参考PIL的官方文档(虽然我也没看过,不过还是贴上来):http://effbot.org/imagingbook/图片转字符画的关键思想是将图片...转载 2018-10-30 23:47:12 · 333 阅读 · 0 评论