爬虫dns cache设置

设置代理服务器squid的dns positive_dns_ttl 6 hours #设置为6小时,这个值取dns返回的ttl最小值 dns_nameservers 8.8.8.8 #设置google dns服务器 设置nscd enable-cache ho...

2018-03-09 21:15:22

阅读数 439

评论数 0

迭代器设计模式

顺序的访问集合中的数据,本质是根据下标访问数据,好处是可以不关注具体集合实现

2018-03-09 18:15:32

阅读数 54

评论数 0

工厂设计模式

简单工厂 一个可以直接生产单一种类产品 工厂模式 工厂类为接口 工厂类可以产出单一种类产品 抽象工厂 工厂类为接口 工厂类可以产出多种类产品 ...

2018-03-09 16:51:11

阅读数 45

评论数 0

python vim配置

set nocompatible " required filetype off " required" set the runtime path to include Vundle and initiali...

2017-05-11 15:43:59

阅读数 377

评论数 0

python redis实现bloomfilter

原理 用于海量数据去重,对数据经多次hash,放入bitmap,由于采用hash算法,可能数据可能重复,所以使用前务必按照公式计算错误率 实现# coding:utf-8 import redis import mmh3REDIS_HOST = "192.168.159.128&qu...

2017-03-08 19:06:59

阅读数 543

评论数 0

python操作solr

solr接收http请求,所以使用requests库操作solr就可以添加 data = {"add": {"doc": params, "commitWithin": 1000}} headers = {"Con...

2017-02-28 19:15:22

阅读数 1478

评论数 0

crontab 不运行原因排查

WTF?! My cronjob doesn’t run?!Here’s a checklist guide to debug not running cronjobs: Is the Cron daemon running? Run ps ax | grep cron and look for ...

2017-01-18 15:15:35

阅读数 207

评论数 0

stomp协议

stomp协议简介 stomp协议是消息框架中的通信协议 通信格式是文本结构类似于HTTP 可以互操作 stomp文本结构 COMMAND header1:value1 header2:value2 Body^@ 命令 SEND SUBSCRIB...

2016-12-30 17:36:31

阅读数 156

评论数 0

xpath去除空格

translate(normalize-space(/tr/td/a), ’ ‘, ”)normalize-space():tab,NL,CR替换成空格,产生新的字符串translate():替换字符,产生新的字符串

2016-11-17 15:19:33

阅读数 3364

评论数 0

清空文件夹下所有log

ll *.log | awk '{print $9}' | xargs -I % sh -c 'echo "" > %'

2016-11-15 14:47:33

阅读数 330

评论数 0

selenium + PhantomJS 操作

在网站模拟登陆的时候可能会遇到复杂的JS操作,如果用程序去模拟会很复杂,而且可用性很差,所以这个时候就需要用模拟浏览器操作。 selenium提供一系列操作接口可以操作firefox,chrom,phantomjs PhantomJS是无头浏览器,没有界面所以效率很高 安装python...

2016-10-19 14:35:35

阅读数 296

评论数 0

shell if-else

if []; then ... elif []; then ... else ... fi -eq #等于 -ne #不等于 -lt #小于 -gt #大于 -le #大于等于 -...

2016-10-09 16:53:30

阅读数 107

评论数 0

shell数组操作

数组定义 #定义数组 array_name=(value0 value1 value2) array_name[0]=value0 array_name[1]=value1 array_name[2]=value2o array_name=( va...

2016-10-09 16:38:39

阅读数 185

评论数 0

git初始化项目

已有项目初始化 cd repo git remote add origin /path/to/origin.git git add . git commit -m 'initial commit' git push origin master

2016-09-14 18:42:56

阅读数 439

评论数 0

LWPCookieJar的使用

LWPCookieJar是python中管理cookie的工具,可以将cookie保存到文件,或者在文件中读取cookie数据到程序写入cookie到文件 from cookielib import LWPCookieJar cj = LWPCookieJar() cj.se...

2016-09-14 17:44:16

阅读数 5395

评论数 1

PIL图片操作

分割im = Image.open(PATH) crop_im = im.crop((x1,y1,x2,y2))#(x1,y1),(x2,y2) crop_im.save(TARGET_PATH)拼接im = Image.new("RGB",(256, 210), (255, ...

2016-09-08 16:10:27

阅读数 169

评论数 0

MySQL数据库优化

查看innodb状态 show engine innodb status; 查看执行的sql show full PROCESSLIST; 关闭sql kill PID; 查看sql执行状态 explain sql SYSTEM CONST的特例,当表上只有一...

2016-09-02 21:00:42

阅读数 100

评论数 0

requests 下载图片

import requests r = requests.get( url=url, headers=headers, stream=True) with open("img/1.jpg", 'ab') as f: for...

2016-09-01 16:46:59

阅读数 488

评论数 0

python操作Mysql数据库

安装下载安装: https://pypi.python.org/pypi/MySQL-python/1.2.5操作#!/usr/bin/python # -*- coding: UTF-8 -*-import MySQLdb# 打开数据库连接 db = MySQLdb.connect("...

2016-08-29 15:54:43

阅读数 271

评论数 0

requests 使用代理验证

from requests.auth import HTTPProxyAuthurl = ... timeout = ... headers = {} auth = HTTPProxyAuth(user, password) proxies = {"http": "h...

2016-08-29 15:26:13

阅读数 1815

评论数 0

提示
确定要删除当前文章?
取消 删除