自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

积小流成江河

Java、Python、大数据组件、人工智能

  • 博客(3)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 最优模型选择的准则:AIC、BIC准则

选择最优模型的指导思想是从两个方面去考察:一个是似然函数最大化,另一个是模型中的未知参数个数最小化。似然函数值越大说明模型拟合的效果越好,但是我们不能单纯地以拟合精度来衡量模型的优劣,这样回导致模型中未知参数越来越多,模型变得越来越复杂,会造成过拟合。所以一个好的模型应该是拟合精度和未知参数个数的综合最优化配置。AIC准则AIC准则是由日本统计学家Akaike与1973年提出的,全称是最小...

2018-07-30 16:34:46 78524 6

原创 时间序列预测总结

一、数据预处理1.1 异常值清理由于设备故障或计算错误,时序数据中会有一些异常值,这些异常值会对时间序列的预测造成不好的影响,所以先进行平滑处理,去除异常值。平滑处理的方式可以采用取前后均值的方法,代码如下:def diff_smooth(ts): dif = ts.diff().dropna() # 差分序列 td = dif.describe() # 描...

2018-07-26 16:12:34 3660

原创 pandas的dataframe更新index

在使用pandas进行数据操作时遇到了如下问题: 首先对数据进行了抽取: equ_data = equ_data[equ_data["link_id"] == link_id] 抽取完之后equ_data的index变成了乱序的,如下: log_time ratio16626 2018/2/25 18:44:06 0.0016650 ...

2018-07-26 14:26:07 8764 1

stopwords.txt

stopwords.txt

2021-08-13

pyhanlp依赖包hanlp-1.7.4-release.zip

安装pyhanlp后,import pyhanlp时报错:FileNotFoundError:[Errno 2] No such file or director:'D:\\proframData\Anaconda2\envs\py3\lib\site-package\pyhanlp\static\hanlp-1.7.4-release.zip',网上下载hanlp-1.7.4-release.zip,资源不好一直没下载下来,分享给大家。

2019-09-11

编译好的pyltp,分享给大家,python3.5 3.6两个版本 pyltp-python3.5&3.6.zip

编译pyltp时报错,费了很大劲编译好分享给大家,两个版本:python3.5,python3.6,

2019-09-09

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除