数据竞赛技巧

1.对预测结果进行处理 可分别用K折交叉预测和全部数据分别做模型,然后按照一定权重(如8:2)对结果进行集成

2019-04-11 09:52:55

阅读数 27

评论数 0

数据挖掘名词解释

concept drift(概念漂移) 目标变量随着时间的推移发生改变。例如对金融衍生品价格预测、好坏分类指标等。 sudden指的是迅速同时又不可逆的改变,强调的是发生的迅速。 incremental和gradual都是强调改变发生的缓慢,incremental强调值的随时间改变,...

2018-12-18 10:24:25

阅读数 241

评论数 0

数据挖掘过程中的问题集合

问题1:以bid(客户一次消费行为id)进行建模,导致同一个客户对应的label不同 解决:以cid(客户id,人维度)进行建模,对label归一化,统一处理为0或者1,相当于加权操作 问题2:训练集和测试集中有重复数据,可能造成过拟合 解决:实际训练时,对重复数据进行处理,如:剔除训练集的...

2018-11-19 10:50:04

阅读数 75

评论数 0

python3下使Word2Vec每次运行结果一致

如何在python3环境使Word2Vec每次运行结果一致 我们经常使用gensim的Word2Vec来进行单词转向量,但是这个包存在一个问题,每次训练结果都不同,这就导致了特征无法复现。 查阅Word2Vec的官方文档,在seed参数哪里可以发现这样的解释: seed (int) – ...

2019-08-05 10:06:43

阅读数 11

评论数 0

Python包设置清华源(pip, anaconda等)

pip清华镜像站 pypi 镜像每 5 分钟同步一次。 临时使用 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package 注意,simple 不能少, 是 https 而不是 http 设为默认 升级...

2019-08-05 09:48:14

阅读数 51

评论数 0

服务器搭建jupyter并实现远程访问

一、 进入所需的conda环境 二、安装jupyter conda install jupyter notebook 三、查看配置文件位置 jupyter notebook --generate-config 四、生成密码 进入环境ipython, 在ipython环境下输入: fr...

2019-07-25 10:05:23

阅读数 11

评论数 0

pytorch训练出现loss=na

遇到一个很坑的情况,在pytorch训练过程中出现loss=nan的情况 有以下几种可能: 1.学习率太高。 2.loss函数有问题 3.对于回归问题,可能出现了除0 的计算,加一个很小的余项可能可以解决 4.数据本身,是否存在Nan、inf,可以用np.isnan(),np.isinf()检查一...

2019-06-24 20:25:27

阅读数 56

评论数 0

人脸识别Face Recognition的安装

Face Recognition是世界上最简洁的人脸识别库,你可以使用Python和命令行工具提取、识别、操作人脸。 Face Recognition的人脸识别是基于业内领先的C++开源库 dlib中的深度学习模型,用Labeled Faces in the Wild人脸数据集进行测试,有高达9...

2019-05-28 10:10:55

阅读数 1185

评论数 1

python模型转PMML

关于python模型的部署,目前有以下几种方式 flask等python为服务框架,无需跨语言 xgb4j,lgb4j等Java包,需跨语言,但只支持xgb/lgb PMML,跨语言,支持所有sklearn接口的模型 综上所述,当遇到跨语言部署时,PMML是个万金油方式,可以将所有...

2019-05-21 09:57:32

阅读数 239

评论数 0

pycharm本地远程关联相关问题

配置远程SFTP 在PyCharm中打开SFTP配置面板,路径为Tools => Deployment => Configuration: 配置Connection参数设置,填写远程服务器域名或者IP地址及用户名密码后,点击Test按钮进行连接测试,另外可以...

2019-05-06 17:13:17

阅读数 49

评论数 0

scrapy带帐号密码的爬取

最近在对github和gitlab进行爬取,遇到了很多坑,经过一系列的调研终于解决了问题 1、基本设置 settings.py下,设置: ROBOTSTXT_OBEY = False ROBOTSTXT_OBEY 默认为True,就是要遵守robots.txt 的规则,那么 robot...

2019-04-26 10:43:37

阅读数 92

评论数 0

需账号密码登陆的网页爬虫

对于普通网页的爬取十分简单,如果网站没有任何反爬机制,只要以下代码就可以实现对于网页的爬取 import requests html = requests.get(url='网址',headers=headers,verify=False) from bs4 import Beautif...

2019-04-17 15:08:19

阅读数 385

评论数 0

Docker发布自己镜像报错denied: requested access to the resource is denied

1.创建自己的docker账号 进入dockerhub,https://hub.docker.com/,登陆自己的账号或者创建新账号 创建自己的仓库 2.启动docker 登陆自己的账号,输入账号密码 docker login 查看镜像 docker images 给将要上传的...

2019-04-15 16:55:46

阅读数 46

评论数 0

Docker——入门实战

看到一篇写得很好的docker入门教程,马克一下, 写了dockers的下载、安装,以及一个简单的案例:在容器中部署静态网站 https://blog.csdn.net/bskfnvjtlyzmv867/article/details/81044217 ...

2019-04-15 13:58:31

阅读数 64

评论数 0

windows建立定时任务执行bat脚本

在Linux中我们可以通过crontab来定时执行脚本,那么windows中如何执行呢? 为了避免分支冲突,准备在每天上班的时候自动将git远程仓库的最新版本pull下来,然后在下班时间自动将重要项目push到远程仓库,这样即使用家里的电脑进行开发,也可以从远程仓库得到最新的代码。 首先将pu...

2019-04-12 10:47:13

阅读数 647

评论数 0

zabbix的使用

使用zabbix设置监控报警 1.登陆zabbix的web页面 2.配置监控项 选择 配置-主机,选择配置监控的目标机 点击 监控项-创建监控项,注意名称和键值 3.配置触发器 输入表达式,选择严重性 4.往zabbix发送数据 在terminal中输入命令发送数据...

2019-04-10 16:32:42

阅读数 73

评论数 1

elasticsearch使用

删除index和数据 切换到elsearch账户,不可用root账户 查看index curl 'localhost:9200/_cat/indices?v' 删除index curl -X DELETE 'localhost:9200/索引名*'

2019-04-08 13:40:16

阅读数 16

评论数 0

ELK扩展:使用Beats收集其他服务器上的日志

一、logstash与beats 由于Logstash在数据收集上并不出色,而且作为agent,性能并不达标。elastic发布了beats系列轻量级采集组件。至此,elastic形成了一个完整的生态链和技术栈,成为大数据市场的佼佼者 二、什么是beats beats 是一个使用 Golan...

2019-04-08 10:51:38

阅读数 217

评论数 0

git报错fatal: the remote end hung up unexpectedly

之前在github上建了一个项目,传了几个不到1M的xlsx表格,但是用家里的电脑克隆项目时一直报错: fatal: the remote end hung up unexpectedly fatal: early EOF fatal: index-pack failed 尝试了htt...

2019-04-06 10:07:41

阅读数 37

评论数 0

运行spark报错Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'

问题描述 最近换了一台电脑,将原电脑的spark streaming代码考到了新电脑上,使用IDEA运行却报错了 Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState' The root scratch...

2019-04-02 10:10:23

阅读数 293

评论数 0

提示
确定要删除当前文章?
取消 删除