数据挖掘
文章平均质量分 65
数据挖掘学习笔记及案例分享
俱往矣`
上市公司算法团队负责人,主要工作方向:LLM、AI agent。
展开
-
python常用命令集合
python常用命令集合一、pandas常用命令1、重置indexlocation_data = location_data.reset_index(drop=True)2、根据指定列删除重复值data = result_data.drop_duplicates(subset = ['集团客户ID', '集团客户名称', '证件地址'], keep = 'first')3、根据多列进行mergemerge_data = pd.merge(boss_data, data[['ID', '名称原创 2022-05-24 20:47:42 · 4391 阅读 · 1 评论 -
sklearn模型保存与加载
机器学习模型保存与加载id_to_cat是类别编号与名词的映射字典:{0: '出费原因查询', 1: '费用未到账', 2: '账单核实'}X_test是同训练集一样预处理得到的特征一、pickle形式1、保存为pickleimport pickle# 保存Model(注:save文件夹要预先建立,否则会报错)with open('/order_analysis/model/svc.pickle', 'wb') as f:pickle.dump(model, f)2、读取pickle原创 2022-04-27 16:01:32 · 713 阅读 · 0 评论 -
linux定期清理日志文件
linux定期清理日志文件日志文件输出信息过多时,往往会导致资源紧张。故需要对其进行定期删除。其中echo “” > log1.out可以将日志文件内容赋值为空字符串,服务有新输出时,会在文件后继续追加内容。避免由于使用rm命令后,无法保留日志文件的缺陷。# 循环监控,通过控制sleep的时间来控制时间间隔while :; do echo "" > log1.out echo "" > log2.out echo $(date +%F%n%T) ec原创 2022-04-11 17:12:21 · 2524 阅读 · 0 评论 -
AutoML—应用TPOT实现回归预测
TPOT是一种AutoML的工具,借助遗传算法来生成Pipeline代码。基于Python,建立在scikit-learn的基础上。**主要原理:**遗传算法进行特征、模型选择目的:实现对特征、模型、超参的优化,并生成主体代码只需要给定结构化的数据,自动的进行多模型比较调优,经过一定次数的迭代,会得到一个最优模型,框架会保留模型参数来构建一个pipelin.py,我们只需要在pipelin.py中微调数据传入的接口即可得到一个最优模型。原创 2022-03-10 14:29:22 · 2657 阅读 · 0 评论 -
catboost算法及参数说明
catboost回归catboost有一下三个的优点:它自动采用特殊的方式处理类别型特征(categorical features)。首先对categorical features做一些统计,计算某个类别特征(category)出现的频率,之后加上超参数,生成新的数值型特征(numerical features)。这也是我在这里介绍这个算法最大的motivtion,有了catboost,再也不用手动处理类别型特征了。catboost还使用了组合类别特征,可以利用到特征之间的联系,这极大的丰富了特征维原创 2022-03-09 17:40:01 · 3751 阅读 · 1 评论 -
电力预测模型(线性模型)
电力预测#加载对应的库import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport os#读取数据os.chdir("D:\\LengPY\\AI电力能耗预测")data = pd.read_csv('zhenjiang_power.csv') # 读取训练数据data_9 = pd.read_csv('zhenjiang_power_9.csv') #原创 2021-04-08 20:22:52 · 1532 阅读 · 1 评论 -
电商平台用户退款预测模型(Python语言)
电商平台用户退款预测模型(Python语言)(…待改进)# 加载需要用到的包import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inlineimport seaborn as snsplt.style.use('fivethirtyeight')from warnings import filterwarningsfilterwarnings('ignore')orders原创 2021-03-28 20:35:49 · 924 阅读 · 2 评论 -
自然语言处理之中文分词(基于Python)
人生苦短,我用python除了给你生孩子,python都能给你做到。这句话所言不假,python拥有丰富的库,能完成各种各样的的功能。只有你想不到的,没有python做不到的。下面我们来看看python在自然语言处理中的应用吧!python之中文分词中文分词 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。**在自然语言处理技术...原创 2018-11-07 11:15:34 · 7822 阅读 · 1 评论 -
异常值检测常用算法及案例
异常值检测常用方法对历史数据进行异常值检测,对突发情况或者异常情况进行识别,避免因为异常值导致预测性能降低,并对其进行调整便于后续预测。一、3-sigma原则异常值检测3-Sigma原则又称为拉依达准则,该准则定义如下:假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个区间,认为误差超过这个区间的就属于异常值。如果数据服从正态分布,异常值被定义为一组测定值中与平均值的偏差超过3倍的值 → p(|x - μ| > 3σ) ≤ 0.003。样例如下:对原创 2022-03-08 22:25:18 · 15576 阅读 · 1 评论