自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 scrapy带帐号密码的爬取

最近在对github和gitlab进行爬取,遇到了很多坑,经过一系列的调研终于解决了问题1、基本设置settings.py下,设置:ROBOTSTXT_OBEY = FalseROBOTSTXT_OBEY 默认为True,就是要遵守robots.txt 的规则,那么 robots.txt 是什么?robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中, 它的作...

2019-04-26 10:43:37 1490

原创 需账号密码登陆的网页爬虫

对于普通网页的爬取十分简单,如果网站没有任何反爬机制,只要以下代码就可以实现对于网页的爬取import requestshtml = requests.get(url='网址',headers=headers,verify=False)from bs4 import BeautifulSoupsoup = BeautifulSoup(html.text,'lxml')#以下三种方式均...

2019-04-17 15:08:19 20238

原创 Docker发布自己镜像报错denied: requested access to the resource is denied

1.创建自己的docker账号进入dockerhub,https://hub.docker.com/,登陆自己的账号或者创建新账号创建自己的仓库2.启动docker登陆自己的账号,输入账号密码docker login查看镜像docker images给将要上传的镜像打标签,注意仓库名一定要写正确docker tag IMAGEID(镜像id) REPOSITO...

2019-04-15 16:55:46 4005

转载 Docker——入门实战

看到一篇写得很好的docker入门教程,马克一下,写了dockers的下载、安装,以及一个简单的案例:在容器中部署静态网站https://blog.csdn.net/bskfnvjtlyzmv867/article/details/81044217...

2019-04-15 13:58:31 186

原创 windows建立定时任务执行bat脚本

在Linux中我们可以通过crontab来定时执行脚本,那么windows中如何执行呢?为了避免分支冲突,准备在每天上班的时候自动将git远程仓库的最新版本pull下来,然后在下班时间自动将重要项目push到远程仓库,这样即使用家里的电脑进行开发,也可以从远程仓库得到最新的代码。首先将push和pull写成bat文件,然后需要考虑的就是建立定时任务执行bat脚本了1.打开任务计划程序-创建任...

2019-04-12 10:47:13 17590

原创 数据竞赛技巧

1.对预测结果进行处理可分别用K折交叉预测和全部数据分别做模型,然后按照一定权重(如8:2)对结果进行集成

2019-04-11 09:52:55 256

原创 zabbix的使用

使用zabbix设置监控报警1.登陆zabbix的web页面2.配置监控项选择 配置-主机,选择配置监控的目标机点击 监控项-创建监控项,注意名称和键值3.配置触发器输入表达式,选择严重性4.往zabbix发送数据在terminal中输入命令发送数据,若超过阈值则自动报警zabbix_sender -z “IP” -p 10051 -s "$HOSTNAME" -k 键名...

2019-04-10 16:32:42 566 1

原创 elasticsearch使用

删除index和数据切换到elsearch账户,不可用root账户查看indexcurl 'localhost:9200/_cat/indices?v'删除indexcurl -X DELETE 'localhost:9200/索引名*'

2019-04-08 13:40:16 190

原创 ELK扩展:使用Beats收集其他服务器上的日志

一、logstash与beats由于Logstash在数据收集上并不出色,而且作为agent,性能并不达标。elastic发布了beats系列轻量级采集组件。至此,elastic形成了一个完整的生态链和技术栈,成为大数据市场的佼佼者二、什么是beatsbeats 是一个使用 Golang 构建的平台,libbeat 是其核心库,用来提供API进行与Elasticsearch,Logstash...

2019-04-08 10:51:38 3541 1

原创 git报错fatal: the remote end hung up unexpectedly

之前在github上建了一个项目,传了几个不到1M的xlsx表格,但是用家里的电脑克隆项目时一直报错:fatal: the remote end hung up unexpectedlyfatal: early EOFfatal: index-pack failed尝试了https和ssh克隆均以失败告终查看了一些网上的解决方法,原来是文件过大造成的这个错误解决方法:运行:git ...

2019-04-06 10:07:41 1528

原创 运行spark报错Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'

问题描述最近换了一台电脑,将原电脑的spark streaming代码考到了新电脑上,使用IDEA运行却报错了Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'The root scratch dir: /tmp/hive on HDFS should be writable经检查发现是/tmp/...

2019-04-02 10:10:23 6681 3

fastText.zip

python setup.py install 方式安装fasttext,避免报错

2021-01-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除