- 博客(11)
- 资源 (1)
- 收藏
- 关注
原创 scrapy带帐号密码的爬取
最近在对github和gitlab进行爬取,遇到了很多坑,经过一系列的调研终于解决了问题1、基本设置settings.py下,设置:ROBOTSTXT_OBEY = FalseROBOTSTXT_OBEY 默认为True,就是要遵守robots.txt 的规则,那么 robots.txt 是什么?robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中, 它的作...
2019-04-26 10:43:37 1490
原创 需账号密码登陆的网页爬虫
对于普通网页的爬取十分简单,如果网站没有任何反爬机制,只要以下代码就可以实现对于网页的爬取import requestshtml = requests.get(url='网址',headers=headers,verify=False)from bs4 import BeautifulSoupsoup = BeautifulSoup(html.text,'lxml')#以下三种方式均...
2019-04-17 15:08:19 20238
原创 Docker发布自己镜像报错denied: requested access to the resource is denied
1.创建自己的docker账号进入dockerhub,https://hub.docker.com/,登陆自己的账号或者创建新账号创建自己的仓库2.启动docker登陆自己的账号,输入账号密码docker login查看镜像docker images给将要上传的镜像打标签,注意仓库名一定要写正确docker tag IMAGEID(镜像id) REPOSITO...
2019-04-15 16:55:46 4005
转载 Docker——入门实战
看到一篇写得很好的docker入门教程,马克一下,写了dockers的下载、安装,以及一个简单的案例:在容器中部署静态网站https://blog.csdn.net/bskfnvjtlyzmv867/article/details/81044217...
2019-04-15 13:58:31 186
原创 windows建立定时任务执行bat脚本
在Linux中我们可以通过crontab来定时执行脚本,那么windows中如何执行呢?为了避免分支冲突,准备在每天上班的时候自动将git远程仓库的最新版本pull下来,然后在下班时间自动将重要项目push到远程仓库,这样即使用家里的电脑进行开发,也可以从远程仓库得到最新的代码。首先将push和pull写成bat文件,然后需要考虑的就是建立定时任务执行bat脚本了1.打开任务计划程序-创建任...
2019-04-12 10:47:13 17590
原创 zabbix的使用
使用zabbix设置监控报警1.登陆zabbix的web页面2.配置监控项选择 配置-主机,选择配置监控的目标机点击 监控项-创建监控项,注意名称和键值3.配置触发器输入表达式,选择严重性4.往zabbix发送数据在terminal中输入命令发送数据,若超过阈值则自动报警zabbix_sender -z “IP” -p 10051 -s "$HOSTNAME" -k 键名...
2019-04-10 16:32:42 566 1
原创 elasticsearch使用
删除index和数据切换到elsearch账户,不可用root账户查看indexcurl 'localhost:9200/_cat/indices?v'删除indexcurl -X DELETE 'localhost:9200/索引名*'
2019-04-08 13:40:16 190
原创 ELK扩展:使用Beats收集其他服务器上的日志
一、logstash与beats由于Logstash在数据收集上并不出色,而且作为agent,性能并不达标。elastic发布了beats系列轻量级采集组件。至此,elastic形成了一个完整的生态链和技术栈,成为大数据市场的佼佼者二、什么是beatsbeats 是一个使用 Golang 构建的平台,libbeat 是其核心库,用来提供API进行与Elasticsearch,Logstash...
2019-04-08 10:51:38 3541 1
原创 git报错fatal: the remote end hung up unexpectedly
之前在github上建了一个项目,传了几个不到1M的xlsx表格,但是用家里的电脑克隆项目时一直报错:fatal: the remote end hung up unexpectedlyfatal: early EOFfatal: index-pack failed尝试了https和ssh克隆均以失败告终查看了一些网上的解决方法,原来是文件过大造成的这个错误解决方法:运行:git ...
2019-04-06 10:07:41 1528
原创 运行spark报错Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'
问题描述最近换了一台电脑,将原电脑的spark streaming代码考到了新电脑上,使用IDEA运行却报错了Error while instantiating 'org.apache.spark.sql.hive.HiveSessionState'The root scratch dir: /tmp/hive on HDFS should be writable经检查发现是/tmp/...
2019-04-02 10:10:23 6681 3
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人