2019年04月_slibra_L

原创 scrapy带帐号密码的爬取

最近在对github和gitlab进行爬取，遇到了很多坑，经过一系列的调研终于解决了问题1、基本设置settings.py下，设置：ROBOTSTXT_OBEY = FalseROBOTSTXT_OBEY 默认为True，就是要遵守robots.txt 的规则，那么 robots.txt 是什么？robots.txt 是遵循 Robot协议的一个文件，它保存在网站的服务器中，它的作...

2019-04-26 10:43:37 1490

原创需账号密码登陆的网页爬虫

对于普通网页的爬取十分简单，如果网站没有任何反爬机制，只要以下代码就可以实现对于网页的爬取import requestshtml = requests.get(url='网址',headers=headers,verify=False)from bs4 import BeautifulSoupsoup = BeautifulSoup(html.text,'lxml')#以下三种方式均...

2019-04-17 15:08:19 20238

原创 Docker发布自己镜像报错denied: requested access to the resource is denied

1.创建自己的docker账号进入dockerhub，https://hub.docker.com/，登陆自己的账号或者创建新账号创建自己的仓库2.启动docker登陆自己的账号,输入账号密码docker login查看镜像docker images给将要上传的镜像打标签，注意仓库名一定要写正确docker tag IMAGEID(镜像id) REPOSITO...

2019-04-15 16:55:46 4005

转载 Docker——入门实战

看到一篇写得很好的docker入门教程，马克一下，写了dockers的下载、安装，以及一个简单的案例：在容器中部署静态网站https://blog.csdn.net/bskfnvjtlyzmv867/article/details/81044217...

2019-04-15 13:58:31 186

在Linux中我们可以通过crontab来定时执行脚本，那么windows中如何执行呢？为了避免分支冲突，准备在每天上班的时候自动将git远程仓库的最新版本pull下来，然后在下班时间自动将重要项目push到远程仓库，这样即使用家里的电脑进行开发，也可以从远程仓库得到最新的代码。首先将push和pull写成bat文件，然后需要考虑的就是建立定时任务执行bat脚本了1.打开任务计划程序-创建任...

2019-04-12 10:47:13 17590

原创数据竞赛技巧

1.对预测结果进行处理可分别用K折交叉预测和全部数据分别做模型，然后按照一定权重（如8：2）对结果进行集成

2019-04-11 09:52:55 256

原创 zabbix的使用

使用zabbix设置监控报警1.登陆zabbix的web页面2.配置监控项选择配置-主机，选择配置监控的目标机点击监控项-创建监控项，注意名称和键值3.配置触发器输入表达式，选择严重性4.往zabbix发送数据在terminal中输入命令发送数据，若超过阈值则自动报警zabbix_sender -z “IP” -p 10051 -s "$HOSTNAME" -k 键名...

2019-04-10 16:32:42 566 1

原创 elasticsearch使用

删除index和数据切换到elsearch账户，不可用root账户查看indexcurl 'localhost:9200/_cat/indices?v'删除indexcurl -X DELETE 'localhost:9200/索引名*'

2019-04-08 13:40:16 190

原创 ELK扩展：使用Beats收集其他服务器上的日志

一、logstash与beats由于Logstash在数据收集上并不出色，而且作为agent，性能并不达标。elastic发布了beats系列轻量级采集组件。至此，elastic形成了一个完整的生态链和技术栈，成为大数据市场的佼佼者二、什么是beatsbeats 是一个使用 Golang 构建的平台，libbeat 是其核心库，用来提供API进行与Elasticsearch，Logstash...

2019-04-08 10:51:38 3541 1

原创 git报错fatal: the remote end hung up unexpectedly

之前在github上建了一个项目，传了几个不到1M的xlsx表格，但是用家里的电脑克隆项目时一直报错：fatal: the remote end hung up unexpectedlyfatal: early EOFfatal: index-pack failed尝试了https和ssh克隆均以失败告终查看了一些网上的解决方法，原来是文件过大造成的这个错误解决方法：运行：git ...

2019-04-06 10:07:41 1528

原创运行spark报错Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'

问题描述最近换了一台电脑，将原电脑的spark streaming代码考到了新电脑上，使用IDEA运行却报错了Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'The root scratch dir: /tmp/hive on HDFS should be writable经检查发现是/tmp/...

2019-04-02 10:10:23 6681 3

slibra_L的博客