自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(63)
  • 收藏
  • 关注

原创 解决安装opencv过程中卡住问题

尝试过单独安装opencv、更新pip,但是还是会卡在这个页面。原因是版本太高了,去pypi搜索低版本的能成功安装的即可。在安装opencv过程中,卡住了。

2024-07-17 15:57:09 85

原创 时间序列预测实践过程

观察数据的趋势和季节性成分:如果数据的季节性成分在不同趋势水平下保持稳定,那么加法模型可能更合适。如果数据的季节性成分随着趋势的变化而变化,那么乘法模型可能更合适。考虑业务背景:根据业务需求和对数据的理解,选择更适合的模型。例如,在销售额预测中,乘法模型可能更合适,因为销售额的季节性波动可能随着市场环境的变化而变化。结果解释与部署: (1)解释模型的预测结果,考虑如何将预测结果应用于业务决策。检查数据的残差:在拟合加法或乘法模型后,检查残差以确定哪个模型更好地捕捉了数据中的规律。

2024-02-18 16:03:30 649

原创 impala 同时使用group by 和 聚合函数

解决impala出现select list expression not produced by aggregation output (missing from GROUP BY clause?): 的问题

2023-03-02 20:55:01 1827

原创 git 上传代码到gitlab

从git上拉取代码及上传代码的详细步骤

2022-08-25 16:16:14 1040

原创 关于kafka-python的若干问题

kafka相关问题

2022-08-08 14:12:31 853

原创 python连接数据库

python连接不同的数据库

2022-06-07 11:21:55 3807

原创 Linux 安装conda踩的那些坑

1.下载anaconda去官网或者清华源2.使用如下命令进行安装bashAnaconda3-5.2.0-Linux-x86_64.sh安装的时候会让输入yes,一路yes,最后问要不要安装VS的时候no就行了【在这个过程中,有一个是否把anaconda路径加入~/.bashrc文件,如果输入yes就不用管了,否则就需要手动加入】3.退出重新登录4.which python 验证一下python是否是anaconda路径,如果是证明已经在anaconda环境了,就可以使用了i.

2021-09-23 10:47:49 2170 2

转载 python 控制台输出重定向到文件

import sys#startoutput = sys.stdoutoutputfile = open(filename,'w')sys.stdout = outputfile#endoutputfile.close()sys.stdout = output

2021-09-22 10:44:58 928 1

原创 使用进程守护supervisor监控管理项目

小白第一次搞线上部署,很多东西都不懂,再次感谢邸同学的提点,学到了一些东西,现在将其记录下来,避免以后重复遇到。以波士顿房价预测为例,项目名为house_predict1.使用flask框架开发服务,文件名为:house_serve.pyfrom flask import Flaskfrom house_price_predict import house_predict #这个函数包含了所有字段处理和模型调用的代码,#只要传入参数字典就能返回预测结果app_house = F...

2021-08-20 10:18:40 172 1

转载 2021-07-20画决策树

from sklearn.datasets import load_irisimport pydotplusfrom IPython.display import Imagefrom sklearn import tree#训练模型iris=load_iris()clf=tree.DecisionTreeClassifier()clf=clf.fit(iris.data,iris.target)#绘图dot_data=tree.export_graphviz(decision_tree=

2021-07-20 20:43:27 109

转载 机器学习基础 - 偏度、正态化以及 Box-Cox 变换

1引言对于数据挖掘、机器学习中的很多算法,往往会假设变量服从正态分布。例如,在许多统计技术中,假定误差是正态分布的。这个假设使得能够构建置信区间并进行假设检验。因此,在数据预处理阶段会查看目标变量以及各个特征是否服从或接近正态分布,如果偏离就通过一定变换将该数据的分布正态化。一般来说,数据的直方图如果单峰并近似正态但看上去又有些扭曲,可以考虑正态化。比如整体看上去还是一个山峰,但可能峰顶很尖或者整座山往左/往右倾斜了。这些现象如何用数字量化呢?偏度(skewness)和峰度(Kurtosis)就..

2021-07-16 17:34:39 2567 1

原创 python 批量合并csv

1.当csv数量在10以下,每个csv量很小时:import pandas as pddef merge_csv_file(path=None, col_name=[], file_type='csv'): """ 遍历并合并文件夹里的文件 :param path: 文件夹路径 :param col_name: 列名 :param file_type: 文件类型 :return: """ data = pd.DataFrame()

2021-07-07 16:16:56 1077

原创 python-task02

1.关于list由于list的元素可以是任何对象,因此列表中所保存的是对象的指针。即使保存一个简单的[1,2,3],也有3个指针和3个整数对象

2021-05-31 20:39:56 100

原创 python-day1

1.is 和==的区别当变量是不可变类型比如str时,is和==没有区别当变量时list,dict时,is和==不能划等号原因:is, is not 对比的是两个变量的内存地址 ==, != 对比的是两个变量的值 比较的两个变量,指向的都是地址不可变的类型(str等),那么is,is not 和 ==,!= 是完全等价的。 对比的两个变量,指向的是地址可变的类型(list,dict,tuple等),则两者是有区别的。...

2021-05-27 21:02:58 61

原创 时间序列预测模型---天池资金流入流出

一、目标给出2013年7月1号到2014年8月31号所有用户在该时期内资金的申购信息,预测2014年9月1号到31号每天的申购总额二、建模流程1.整合原始信息,将原始数据按天分组并计算日申购总量,并绘制时序的数据图,通过观察时序图,发现数据是非平稳时间序列,接下来进行验证2.进行单位根平稳检验,p-value>0.05,确定该数据是非平稳时间序列3.进行白噪声检验,p-value<0.05,排除白噪声4.将非平稳序列转化为平稳序列: 1.对非平稳时间序列进行时间...

2021-03-02 16:01:21 429

原创 tornado框架

from tornado.httpserver import HTTPServerfrom tornado.ioloop import IOLoopimport tornado.webfrom handler import handler_recall_service os.environ['OMP_NUM_THREADS'] = "1"def multi_app(): port = 9090 app = tornado.web.Application(handlers=.

2021-02-22 14:46:21 132

原创 模型解释

又从kaggle离学到一个新的知识点,下面代码是对模型特征重要性的解释import eli5 from eli5.sklearn import PermutationImportance#for SHAP valuesimport shap from pdpbox import pdp, info_plots #for partial plotsperm = PermutationImportance(model, random_state = 0).fit(x_test, y_test

2021-02-10 11:02:39 751

原创 EDA利器--pandas_profiling

今天混迹kaggle,发现了一个比较重要的模块,pandas_profiling,用pip、conda都可以安装,它主要的功能是生成数据分析报告,贼详细那种,代码:import pandas_profiling profile = pandas_profiling.ProfileReport(data)profile输出结果如下:代码、图片来源:https://www.kaggle.com/roshansharma/heart-diseases-analysis/noteb.

2021-02-09 16:52:59 134

原创 python调试之logging

本想调试代码,但输出太多,也不知道是哪行哪个文件的输出,一气之下,来个总结。1.方法一:使用pycharm自带的debug,一步步打断点,调试2.方法二:程序运行时间过长,只想看某一部分的输出结果,先print()后exit()3.方法三:logging最简单的方式输出代码运行时间、文件、输出信息import logginglogging.basicConfig(level=logging.INFO, format='%(asctime

2021-02-08 13:45:05 345 1

原创 python 读取数据库

1.连接数据库,并执行查询语句,返回查询结果,并转成dataframe形式import numpy as npimport pandas as pdfrom operator import itemgetterimport matplotlib.pyplot as pltimport requestsimport pandas as pdimport jsonfrom pyhive import hiveimport timeimport redef init_hive_con

2021-02-05 11:27:12 1442 1

原创 python-configparser模块

1.功能:读取配置文件2.用法:2.1配置文件格式[db] db_host = 127.0.0.1 db_port = 69 db_user = root db_pass = root host_port = 69 [concurrent] thread = 10 processor = 202.2读取某一个值:from configparser import Configparser #导包filen = ''

2021-02-05 11:14:42 189 2

原创 map reduce

1.python里的用法:map()函数实现将参数一一给到函数并返回结果的功能例如:def f(a): return str(a)map(f, [1, 2, 3, 4])out:['1','2','3','4']reduce()函数实现将前一个结果和当前参数共同放入函数中并计算结果,换句话说,前边一个执行结果是后边函数的一个参数(python3里用reduce需要导入)例如:from functools import reducedef add(x,y...

2021-02-02 14:41:20 127

原创 ch01 错题

一、错题1.2.3.二、易错题

2021-02-01 19:58:11 182

原创 5.产品与项目的对比

2021-01-14 18:44:26 118

原创 4.STACEY矩阵及其对应的开发模型、敏捷开发评估方法

敏捷型开发适用性评估方法-----雷达图:图中绿色部分面积越小越适合使用

2021-01-14 18:43:05 1757

原创 3.项目阶段

2021-01-14 18:40:07 88

原创 2.1敏捷开发-Scrum框架

2021-01-14 18:39:14 122

原创 2.项目生命周期

2021-01-14 18:37:33 75

原创 1.项目描述

2021-01-14 18:36:33 276

原创 日期格式化、元组、时间戳之间的转换

参考链接:https://finthon.com/python-time/

2021-01-08 16:18:52 392

原创 关于AUC的另一个解释

问题描述:同样的数据,不同的特征,预测是否成交时,当auc越高,精确率在0.6时预测数量却越少,auc越低,精确率在0.6时预测数量却增多本质:AUC的另一解释:一个正例,一个负例,预测为正的概率值比预测为负的概率值还要大的可能性解释:auc低,预测为正的概率低,对应模型的召回低,整体预测为1的样本量就少,导致精确率高;auc高,偏向于将样本预测为正样本,会导致召回率越高,但精确率低。参考温州:https://blog.csdn.net/u013385925/article/details/.

2021-01-05 17:31:24 699

原创 信息熵、信息增益

关于信息熵、信息增益的一些思考1.为什么信息熵越大,蕴含的信息量越多?拿二分类问题来说,首先信息熵的公式是Ent(D) = -(p*log_2( p)+(1-p)*log_2(1-p))p是某一类(假设label=0)的概率,那么1-p就是另一类的概率,图像如下:上图x轴时概率p,y轴时信息熵, 由图像可得,当p=0或者1时,熵最小为0,此时变成了只有一类的问题,那么类别就很确定,只能是p=1所对应的类,蕴含的信息量少而确定,而当p=0.5时,此时信息熵最大为1,而且对于类别的预测就和随机猜测结

2020-12-23 14:57:01 803

原创 线性回归

之前有面试官问到关于回归正则化公式,忘了怎么说的我摇了摇脑袋里的水说了λ*杠杠w,面试官说你说的啥,卒....遂,整理了回归函数,顺便让自己记住这次教训。后边还有关于聚类和分类的....参考文献:https://www.zhihu.com/search?type=content&q=%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%20%E6%8D%9F%E5%A4%B1%E5%87%BD%E6%95%B0...

2020-12-17 17:26:23 66

原创 时间序列分析专题(二)

6.影响时间序列的因素长期趋势T:由各个时期普遍的、持续的、决定性的基本因素的作用使发展水平在一个长时期内沿着一个方向,呈现上升或者下降变动的趋势,是时间序列分析的重点。如医疗设备进度引起的人的寿命程上升的趋势季节因素S:使现象以一定时期为一周期呈现的比较有规律的上升、下降交替运动的影响因素,主要指自然因素、社会因素,比如旅游景点门票销售量循环因素C:使现象呈现出以若干年(>=3年)为一个周期涨落相间、扩张与紧缩、波峰与波谷相交替的波动;循环因素的规律性较低,不容易识别;比如经济危机不

2020-12-09 15:07:46 1899

原创 时间序列分析专题

最近在做时间序列项目,做个总结。1.时间序列:即随时间推演目标值的数量特征或变化趋势具有一定规律的数据2.要素:现象所属的时间和现象的发展水平(目标值)3.研究时间序列的意义(研究过去,指导现在,预测未来): 描述事物在过去时间的状态,分析其随时间推移的变化趋势 解释事物发展变化的规律性 预测未来4.主要分类(还有其它分类,暂时不考虑)平稳时间序列:基本固定在某个水平,不存在规律性波动非平稳时间序列:趋势因素、季节因素、不规则变动因素5.常用的动态分...

2020-12-08 21:02:01 464

原创 统计学知识补充

1.k阶中心动差:原点动差:mean=0一阶动差:恒等于0二阶动差:即方差2.偏度:反映随机分布的对称程度,计算方式:三阶动差/标准差的3次方;当偏度大于0时,整体数据分布呈现右偏,如图带颜色的曲线(文字颜色对应的曲线)当偏度小于0时,整体数据分布呈现左偏,如下图:3.峰度:反映数据分布的扁平程度,计算方式:四阶动差/标准差的四次方当峰度值<3时,呈现扁平峰当峰度值>3时,呈现尖峰...

2020-12-08 17:15:41 592

原创 2020-12-01

1.激活函数有什么作用,常用的的激活函数激活函数的作用是整合隐藏层每一个节点的输出结果。如果不适用激活函数,每一层节点的输入都是上一层输出的线性函数,无论经过多少层都是这样,与没有隐藏层效果相当,类似原始感知机,那么网络的表达能力相当有限。引入非线性函数作为激活函数之后,增强了神经网络的表达能力。常用的激活函数有Sigmoid、Tanh、ReLU、Leaky ReLU(线性修正的ReLu函数)1)sigmoid函数:将回归结果映射到0-1之间,适合用做二分类问题以及非线性表达;但是.

2020-12-01 20:59:57 451

原创 1125day7

1.SVM算法的优缺点优点:可以优先解决高维特征的分类 和回归问题无需依赖全体样本,只依赖支持向量有大量的核技巧可以使用,从而应对线性不可分问题适合样本量少的数据集缺点:如果特征维度远远大于样本个数,svm表现一般svm在样本巨大时使用和函数时计算量很大非线性数据的和函数选择没有标准svm对缺失和噪声数据敏感2.SVM的超参数C如何调节C和正则化参数lambda相反,过拟合时减少C值,欠拟合时增大C值3.SVM的核函数如何选择当特征维度n较高,而...

2020-11-26 21:00:36 82

原创 1124day6

1.请简述SVM 原理找出能将类别分开的距离结点距离最大的分离超平面2.SVM 为什么采用间隔最大化3.SVM 为什么要引入 核函数核函数将数据从低维映射到了高维,使数据从低维不可分变成了高维可分。4.SVM 核函数之间的区别 5.为什么SVM对缺失数据敏感 ...

2020-11-26 20:30:29 103

原创 1123day6

1.简述kmeans流程随机选择k个结点作为聚类中心,依次计算所有结点到距离中心的距离,将新的结点划分到与其最近的聚类中心所在的簇,更新聚类中心点,重复次过程,直至所有的数据所属的簇不在发生变化为止2.kmeans对异常值是否敏感?为何?敏感,因为K-mean需要计算距离,异常值会导致距离变化,从而分类错误3.如何评估聚类效果兰德系数调整兰德系数轮廓系数4.超参数k如何选择?肘部法则:遍历不同的K,计算代价函数,并画出代价函数变化趋势,选择使代价函数变平缓的点所对应得K值...

2020-11-23 20:48:38 225

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除