自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(114)
  • 收藏
  • 关注

原创 pyinstaller、Cython封装AutoML代码

背景自己开发了一套AutoML代码,虽然比不上市面上成熟的AutoML,但至少也是集多种祖传操作于一身,且可以直接输出公司需要的报告,但在一些联合建模的场景下,可能存在代码泄露的风险,所以最近在调研如何将代码封装起来方法一:pyinstallerstep1:新建一个虚拟环境一定一定要新建一个虚拟环境,由于pyinstaller会自动封装虚拟环境下的包,如果环境中有一些非必须的包,那么封装后的文件会十分的大!第一次打包后生成的文件有300M,新建环境且仅安装必须的包后,打包生成的文件仅70

2020-11-24 20:16:37 42

原创 mac os安装spark

最近由于需要使用本机环境运行spark,所以进行了spark的安装,记得当年(2017年)装spark的时候折腾了几个小时才装好,没想到现在安装的流程这么简单,1. 下载安装包http://spark.apache.org/downloads.html这里我选的是spark-2.4.7-bin-hadoop2.7.tgz2. 安装cd /usr/localmv ~/Downloads/spark-3.0.0-preview2-bin-hadoop2.7.tgz ./ # 下载sp

2020-11-21 21:02:49 55 1

原创 开机自动后台启动jupyter

之前使用screen后台运行jupyter,但是电脑重启后后台进程也会自动停止,又需要重新启动,作为程序员,本着一件事重复多次就要自动化的精神,打算写一个可以开机自启jupyter的脚本目标:实现jupyter(或别的程序)的开机自启步骤1:实现jupyter的状态检查、启动、停止#!/usr/bin/bash#-----------------------------------------------------------------# Author: lm# Filename

2020-11-12 10:00:04 76

原创 在shell中执行conda activate报错:Your shell has not been properly configured to use ‘conda activate‘.

今天想要在Mac上执行一段自动启动jupyter的shell脚本,但是出现了错误错误代码:CommandNotFoundError: Your shell has not been properly configured to use 'conda activate'.To initialize your shell, run $ conda init <SHELL_NAME>Currently supported shells are: - bash - fi

2020-11-11 17:37:20 38

原创 服务器jupyter使用matplotlib显示中文

问题: 在服务器上jupyter使用matplotlib画图,中文显示为方块解决方案:1. 下载字体simhei2. 查找字体路径和缓存路径import matplotlib# 查找字体路径print(matplotlib.matplotlib_fname())# 查找字体缓存路径print(matplotlib.get_cachedir())3. 将下载好的字体文件,存放到目录:(根据上面的结果,找到字体存放位置)/home/dev/.conda/envs/python

2020-10-27 11:48:51 49

原创 pycharm2020报错 Error: failed to send plot to http://127.0.0.1:63342

pycharm2020报错 Error: failed to send plot to http://127.0.0.1:63342问题:使用pycharm2020连接远程Python解释器,画图plt.show()报错错误原因:在“http://127.0.0.1:63342”中的63342是环境变量os.environ[‘PYCHARM_DISPLAY_PORT’]或者os.getenv(“PYCHARM_MATPLOTLIB_PORT”)。远程解释器尝试将图像数据发送到 远程服务器的1

2020-09-08 12:47:06 682 3

原创 sklearn接口报错Input contains NaN, infinity or a value too large for dtype(‘float64‘)

1. 错误场景某个包调用了sklearn接口,在fit(x,y)时报错Input contains NaN, infinity or a value too large for dtype('float64')2. 错误原因通过查看/sklearn/utils/validation.py文件,发现有一段这样的代码: if is_float and (np.isfinite(_safe_accumulator_op(np.sum, X))): pass elif

2020-08-11 10:54:51 469

原创 mac iterm 快速连接远程服务器

Windows连接远程服务器一般使用xshell,对于mac来说,可以使用iterm代替,如何在iterm上配置一键连接远程服务器,达到xshell的效果呢?1. 进入/Users/XX/.ssh目录(其实也可以是其他目录),vim一个文件,添加如下代码:#!/usr/bin/expect -fset user 用户名set host 服务器地址set password 密码set timeout -1spawn ssh $user@$hostexpect "*password.

2020-07-28 17:16:21 95

原创 crontab调度git报错fatal: could not read Username for url: Device not configured

在多人合作开发的场景下,每次开发前需从Git仓库pull最新的版本,当有多个项目同时进行(或同时关注)时,总是手动pull耗时耗力,而且还可能忘记,于是想到了用crontab定时pull所有自己关注的项目。调试的过程中遇到如下错误错误1:没有权限读取文件原因:crontab中的运行环境和默认环境不一致,无法读取mac非User目录下的文件解决方法:将文件夹迁移至User下错误2:fatal: could not read Username for 'url': Device not co

2020-06-27 20:59:10 149

原创 使用selenium进行网页爬取

有些网站的反爬机制极强,需要更真实的去模拟人访问网站的动作才可以爬取信息,这时就需要selenium一、selenium是什么selenium是什么呢?它是一个强大的Python库。它可以做什么呢?它可以用几行代码,控制浏览器,做出自动打开、输入、点击等操作,就像是有一个真正的用户在操作一样。二、驱动下载首先需要安装浏览器驱动,下载驱动后将exe文件复制到python根目录下(虚拟环境根目录也可以)ChromeDriver与Chrome版本对应参照表及ChromeDriver下载链接

2020-06-27 15:18:20 206

原创 python爬虫-动态网站爬取

对于某些静态网站,只要requests.get(‘url')即可获得页面全部内容,如链家使用pgn代表页面、rs代表关键字,https://sh.lianjia.com/ershoufang/pg2rs%E8%99%B9%E5%8F%A3/但对于一些动态加载的网页,则不可以通过直接get url的方式获取到网页内容AjaxAjax 即“AsynchronousJavascriptAndXML”(异步 JavaScript 和 XML),是指一种创建交互式、快速动态网页应用的网页开发技术,无需...

2020-06-27 14:24:19 195

原创 windows10安装docker的若干坑--Docker Desktop requires Windows 10 Pro/Enterprise (15063+)

安装windows docker 桌面版时报错:Docker Desktop requires Windows 10 Pro/Enterprise (15063+) or Windows 10 Home (19018+)原因:系统是windows10家庭版,且版本不符合要求尝试1:用Windows自带的检查更新,将系统升级到最新版本,结果出现了神奇的现象,版本升到了最新,但os内部版本号却没有变化,且尝试了多种方法均无法提升os内部版本,安装docker依然报错解决办法:某宝花了20元买

2020-06-14 18:20:49 10230

原创 windows10安装docker的若干坑--无法找到Hyper-V

想在电脑上装一个docker,但是发现自己的系统是Windows10家庭版,而家庭版是不带Hyper-V的,那要如何解决这个问题呢?1. 复制下列代码到文本文件里,重命名为Hyper-V.cmdpushd "%~dp0"dir /b %SystemRoot%\servicing\Packages\*Hyper-V*.mum >hyper-v.txtfor /f %%i in ('findstr /i . hyper-v.txt 2^>nul') do dism /online /n

2020-06-14 15:54:25 501

原创 pycharm从远程仓库clone时“Authentication failed for '仓库地址'”的问题解决

背景:使用pycharm-Git-clone 时,输错了账户名,提示“Authentication failed for '仓库地址'”,但pycharm将错误的账户名保存了,之后无论是重新clone还是重启pycharm再克隆,均会提示无权限解决方法:控制面板-用户账户-管理你的凭据-Windows凭据,在 普通凭据 一栏中找到之前输错的仓库地址,点击 编辑 ,修改账户和密码,至...

2020-05-02 16:19:34 559

原创 python3下使Word2Vec每次运行结果一致

如何在python3环境使Word2Vec每次运行结果一致我们经常使用gensim的Word2Vec来进行单词转向量,但是这个包存在一个问题,每次训练结果都不同,这就导致了特征无法复现。查阅Word2Vec的官方文档,在seed参数哪里可以发现这样的解释:seed (int) – Seed for the random number generator. Initial vectors f...

2019-08-05 10:06:43 424

转载 Python包设置清华源(pip, anaconda等)

pip清华镜像站pypi 镜像每 5 分钟同步一次。临时使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple some-package注意,simple 不能少, 是 https 而不是 http设为默认升级 pip 到最新的版本 (>=10.0.0) 后进行配置: pip install pip -U ...

2019-08-05 09:48:14 1698

原创 服务器搭建jupyter并实现远程访问

一、 进入所需的conda环境二、安装jupyterconda install jupyter notebook三、查看配置文件位置jupyter notebook --generate-config四、生成密码进入环境ipython, 在ipython环境下输入:from notebook.auth import passwdpasswd()输入方便你记的密码,连续输;两次…输...

2019-07-25 10:05:23 325

转载 pytorch训练出现loss=na

遇到一个很坑的情况,在pytorch训练过程中出现loss=nan的情况有以下几种可能:1.学习率太高。2.loss函数有问题3.对于回归问题,可能出现了除0 的计算,加一个很小的余项可能可以解决4.数据本身,是否存在Nan、inf,可以用np.isnan(),np.isinf()检查一下input和target5.target本身应该是能够被loss函数计算的,比如sigmoid激活...

2019-06-24 20:25:27 625

原创 人脸识别Face Recognition的安装

Face Recognition是世界上最简洁的人脸识别库,你可以使用Python和命令行工具提取、识别、操作人脸。Face Recognition的人脸识别是基于业内领先的C++开源库 dlib中的深度学习模型,用Labeled Faces in the Wild人脸数据集进行测试,有高达99.38%的准确率。但对小孩和亚洲人脸的识别准确率尚待提升。1、安装gcc我是使用centos7安装...

2019-05-28 10:10:55 1440 1

原创 python模型转PMML

关于python模型的部署,目前有以下几种方式flask等python为服务框架,无需跨语言xgb4j,lgb4j等Java包,需跨语言,但只支持xgb/lgbPMML,跨语言,支持所有sklearn接口的模型综上所述,当遇到跨语言部署时,PMML是个万金油方式,可以将所有sklearn接口的模型转换为PMML文件,并用JAVA/SCALA相关的包进行解析,然而经过一番调研,网上关于p...

2019-05-21 09:57:32 4633 4

原创 pycharm本地远程关联相关问题

配置远程SFTP在PyCharm中打开SFTP配置面板,路径为Tools => Deployment => Configuration:配置Connection参数设置,填写远程服务器域名或者IP地址及用户名密码后,点击Test按钮进行连接测试,另外可以点击Autodetect按钮自动关联root path:配置Mappings参数设置,进行本地项目路径和远程服务器项目路径...

2019-05-06 17:13:17 554

原创 scrapy带帐号密码的爬取

最近在对github和gitlab进行爬取,遇到了很多坑,经过一系列的调研终于解决了问题1、基本设置settings.py下,设置:ROBOTSTXT_OBEY = FalseROBOTSTXT_OBEY 默认为True,就是要遵守robots.txt 的规则,那么 robots.txt 是什么?robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中, 它的作...

2019-04-26 10:43:37 758

原创 需账号密码登陆的网页爬虫

对于普通网页的爬取十分简单,如果网站没有任何反爬机制,只要以下代码就可以实现对于网页的爬取import requestshtml = requests.get(url='网址',headers=headers,verify=False)from bs4 import BeautifulSoupsoup = BeautifulSoup(html.text,'lxml')#以下三种方式均...

2019-04-17 15:08:19 7775

原创 Docker发布自己镜像报错denied: requested access to the resource is denied

1.创建自己的docker账号进入dockerhub,https://hub.docker.com/,登陆自己的账号或者创建新账号创建自己的仓库2.启动docker登陆自己的账号,输入账号密码docker login查看镜像docker images给将要上传的镜像打标签,注意仓库名一定要写正确docker tag IMAGEID(镜像id) REPOSITO...

2019-04-15 16:55:46 2120

转载 Docker——入门实战

看到一篇写得很好的docker入门教程,马克一下,写了dockers的下载、安装,以及一个简单的案例:在容器中部署静态网站https://blog.csdn.net/bskfnvjtlyzmv867/article/details/81044217...

2019-04-15 13:58:31 103

原创 windows建立定时任务执行bat脚本

在Linux中我们可以通过crontab来定时执行脚本,那么windows中如何执行呢?为了避免分支冲突,准备在每天上班的时候自动将git远程仓库的最新版本pull下来,然后在下班时间自动将重要项目push到远程仓库,这样即使用家里的电脑进行开发,也可以从远程仓库得到最新的代码。首先将push和pull写成bat文件,然后需要考虑的就是建立定时任务执行bat脚本了1.打开任务计划程序-创建任...

2019-04-12 10:47:13 10619

原创 数据竞赛技巧

1.对预测结果进行处理可分别用K折交叉预测和全部数据分别做模型,然后按照一定权重(如8:2)对结果进行集成

2019-04-11 09:52:55 101

原创 zabbix的使用

使用zabbix设置监控报警1.登陆zabbix的web页面2.配置监控项选择 配置-主机,选择配置监控的目标机点击 监控项-创建监控项,注意名称和键值3.配置触发器输入表达式,选择严重性4.往zabbix发送数据在terminal中输入命令发送数据,若超过阈值则自动报警zabbix_sender -z “IP” -p 10051 -s "$HOSTNAME" -k 键名...

2019-04-10 16:32:42 165 1

原创 elasticsearch使用

删除index和数据切换到elsearch账户,不可用root账户查看indexcurl 'localhost:9200/_cat/indices?v'删除indexcurl -X DELETE 'localhost:9200/索引名*'

2019-04-08 13:40:16 71

原创 ELK扩展:使用Beats收集其他服务器上的日志

一、logstash与beats由于Logstash在数据收集上并不出色,而且作为agent,性能并不达标。elastic发布了beats系列轻量级采集组件。至此,elastic形成了一个完整的生态链和技术栈,成为大数据市场的佼佼者二、什么是beatsbeats 是一个使用 Golang 构建的平台,libbeat 是其核心库,用来提供API进行与Elasticsearch,Logstash...

2019-04-08 10:51:38 2745 1

原创 git报错fatal: the remote end hung up unexpectedly

之前在github上建了一个项目,传了几个不到1M的xlsx表格,但是用家里的电脑克隆项目时一直报错:fatal: the remote end hung up unexpectedlyfatal: early EOFfatal: index-pack failed尝试了https和ssh克隆均以失败告终查看了一些网上的解决方法,原来是文件过大造成的这个错误解决方法:运行:git ...

2019-04-06 10:07:41 1103

原创 运行spark报错Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'

问题描述最近换了一台电脑,将原电脑的spark streaming代码考到了新电脑上,使用IDEA运行却报错了Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'The root scratch dir: /tmp/hive on HDFS should be writable经检查发现是/tmp/...

2019-04-02 10:10:23 4509 3

原创 conda activate报错:gbk相关错误

使用conda create -n 建立新的虚拟环境后,使用activate无法进入虚拟环境,报了一个和gbk相关的错误,后来经排查发现,是系统环境变量中包含中文字符,把系统变量中所有装在中文路径下的软件卸载,这个问题就解决了。这就告诉我们,重要软件一定不要装在中文路径下!!!...

2019-03-26 11:25:02 695 1

原创 kibana的使用

一、访问host:5601端口后可进入kibana的web界面二、进入management,进入Index Management查看es中是否有我们需要的index* 三、进入index patterns-Create index pattern使用我们的index建立pattern* 四、进入discover,如果没有数据显示则调整右上角的时间轴,扩大范围...

2019-03-20 19:42:47 225

原创 Logstash的input/filter/output配置

在logstash.conf中可以对input/filter/output插件进行编辑一、input标准输入 stdin{}input{ stdin{ add_field => {"key" => "value"} #向事件添加一个字段 codec => "plain" #默认是line, 可通过这个参数设置编码方式 ta...

2019-03-20 19:12:22 791

原创 ELK搭建教程

ELK就是ElasticSearch + LogStash + Kibana,公司一直在使用ELK进行日志收集可视化,感觉ELK是一套十分有用的工具,为了了解ELK的原理,熟悉ELK操作,准备自己在测试服务器上部署一套ELK系统1. LogStash它可以流放到各自的服务器上收集Log日志,通过内置的ElasticSearch插件解析后输出到ES中。2.ElasticSearch这是...

2019-03-18 19:22:42 2172

原创 使用IDEA运行单机Spark报错[scala]

错误1: A master URL must be set in your configuration从提示中可以看出找不到程序运行的master,此时需要配置环境变量。解决方法:点击edit configuration,在左侧点击该项目。在右侧VM options中输入“-Dspark.master=local”,指示本程序本地单线程运行,再次运行即可。...

2019-02-20 17:47:01 107

原创 Jupyter Notebook安装及简单应用

1 简介简而言之,Jupyter Notebook是以网页的形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示。如在编程过程中需要编写说明文档,可在同一个页面中直接编写,便于作及时的说明和解释。2 安装安装anaconda的前提下,使用如下代码:conda install jupyter notebook3 启动在终端中输入如下代码,会自动在浏览器...

2019-02-19 09:38:40 207

原创 Spark报错java.io.IOException: Cannot run program "python": CreateProcess error=2, 系统找不到指定的文件

在windows10环境下搭建单机版spark,使用ml包运行时报错from pyspark.ml.classification import GBTClassifierGBT = GBTClassifier(featuresCol="features", labelCol="label", predictionCol="prediction", ...

2019-02-15 16:56:22 4625

原创 Windows下fbprophet的安装

fbprophet时Facebook开源的时序预测包昨天花了三个小时时间,终于装好了fbprophet,在此记录一下踩过的坑。坑1:\VC\**SDK不存在原因:虽然安装了VS2015,但是C++组件没有安装完全解决:打开VS2015,文件-新建-项目,选择visual C++,安装C++组件坑2:error: command {VC路径} \VC\BIN\cl.exe’ failed...

2018-12-19 09:50:08 1801

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除