- 博客(17)
- 资源 (3)
- 收藏
- 关注
原创 shell script笔记
下面记录linux里shell script学习过程中的一些笔记:1:#!/bin/bash#programe:# This program creates three files, which named by user's input and date command#History:#2016/4/29 dairen First releasePATH=/bin
2016-04-29 10:49:00 579
原创 linux/python正则表达式与通配符的不同
1、正则表达式在Python中,可以参考此处2、Linux中的正则表达式与通配符的不同。首先正则表达式与通配符是完全不一样的东西!在文本过滤工具里,都是用正则表达式,比如像awk,sed,vi,grep,这些是针对文件的内容的,re是一种字符串处理的表示方式而通配符多用在文件名上,比如查找find,ls,cp,等等,wtilcard代表的是bash操作接口的一个功能
2016-04-28 10:21:49 12494 2
转载 常见的分布式文件系统简介
常见的分布式文件系统有,GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统,而是应用级的分布式文件存储服务。 Google学术论文,这是众多分布式文件系统的起源==================================Google Fil
2016-04-25 16:13:02 763
转载 python中的异常处理:try...except...else...finally语句
与 其他语言相同,在python中,try/except语句主要是用于处理程序正常执行过程中出现的一些异常情况,如语法错误(python作为脚本语言 没有编译的环节,在执行过程中对语法进行检测,出错后发出异常消息)、数据除零错误、从未定义的变量上取值等;而try/finally语句则主要用于在 无论是否发生异常情况,都需要执行一些清理工作的场合,如在通信过程中,无论通信是否发生错误,都需要在通
2016-04-14 16:23:22 16405
原创 详解:Python2中的urllib、urllib2与Python3中的urllib以及第三方模块requests
先说说Python2中的url与urllib2(参考此处):urllib和urllib2都是接受URL请求的相关模块,但是提供了不同的功能。两个最显著的不同如下:1、urllib2可以接受一个Request类的实例来设置URL请求的headers,例如: req = urllib2.Request( url=url, data=post
2016-04-14 10:30:07 86044 7
原创 关于Python正则re中的(.*?)
首先来看看他们的基本含义:点星问号(md一直不明白水印为什么不是我的主页而是csdn的主页)正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符。例如:正则表达式"ab*"如果用于查找"abbbc",将找到"abbb"。而如果使用非贪婪的数量词"
2016-04-12 20:02:39 11872 2
原创 Python 正则re模块之compile()和findall()详解
下面是Python3.5官方文档里关于的compile的说明:re.compile(pattern, flags=0)Compile a regular expression pattern into a regular expression object, which can be used for matching using its match() and search() metho
2016-04-12 16:41:13 91462 2
原创 简单Python3爬虫程序(5)进阶:知乎网的登录与用户相关信息爬取
下面是在Python3上的代码,这次觉得麻烦就没有分成两个模块了,本来想爬的是每个用户的主页,但是正则没有写好,所以就爬取了所有与用户相关的信息:import gzipimport refrom collections import dequeimport http.cookiejarimport urllib.requestimport urllib.parsequeue = d
2016-04-12 09:59:53 3191 1
转载 Python常用的爬虫技巧
1、基本抓取网页get方法import urllib2url = "http://www.baidu.com"response = urllib2.urlopen(url)print response.read()post方法import urllibimport urllib2url = "http://abcde.com"form = {'name':'
2016-04-11 19:22:31 868
原创 简单Python3爬虫程序(4)融合1,2:不知疲倦的爬虫
import reimport urllib.requestimport urllibfrom collections import dequeimport crawler2queue = deque()visited = set()url = 'http://www.baidu.com' oper = crawler2.makeMyOpener()queue.append(u
2016-04-11 16:34:02 913
原创 Python读取绝对路径下的文件的问题
f=open('C:\Users\dairen\PycharmProjects\untitled\hotel.txt',’rt‘)上面这句报错,我个人的解决方案有如下3种:f=open("C:\\Users\\dairen\\PycharmProjects\\untitled\\hotel.txt",'rt')f=open("C:/Users/dairen/PycharmP
2016-04-08 10:16:01 2484
原创 简单Python3爬虫程序(3)进阶:登录、解压缩、cookies
import gzipimport reimport http.cookiejarimport urllib.requestimport urllib.parsedef ungzip(data): try: # 尝试解压 print('正在解压.....') data = gzip.decompress(data)
2016-04-07 21:30:09 3487 1
原创 简单Python3爬虫程序(2)进阶:伪装浏览器、超时功能、保存数据
import urllib.requestimport http.cookiejar# head: dict of headerdef makeMyOpener(head = { 'Connection': 'Keep-Alive', 'Accept': 'text/html, application/xhtml+xml, */*', 'Accept-Languag
2016-04-07 20:35:01 3222
原创 简单Python3爬虫程序(1)简单架构:队列、集合、正则
import reimport urllib.requestimport urllibfrom collections import dequequeue = deque()visited = set()url = 'http://www.baidu.com' queue.append(url)cnt = 0while queue: url = queue.popleft()
2016-04-07 20:09:17 1213
原创 windows下sublime text3下载注册及汉化
1、下载:去官网下2、注册:help里面输入注册码,注册码见 http://blog.csdn.net/drdairen/article/details/510655293,、汉化:首先安装Package Control,如果已经安装过可以跳过此步骤。可以按照官网这里https://packagecontrol.io/installation#st3复制命令或者直接复制下面: imp
2016-04-05 16:16:26 451
转载 Sublime Text 3103 Crack 破解 注册码(亲测有效)
随机复制下面的几四个注册码 粘贴到sublime text 3(Build 3103)注册框就可以了!-------------------------------------------------------------------------------第一个--first licence key :========================================
2016-04-05 16:04:30 620
转载 关于python的标准库
正如那句 Python 社区中很有名的话所说的:“battery included”,Python 的一大好处在于它有一套很有用的标准库(standard library)。标准库是随着 Python 一起安装在你的电脑中的,是 Python 的一部分 (当然也有特殊情况。有些场合会因为系统安全性的要求,不使用全部的标准库,比如说Google App Engine)。利用已有的类(cl
2016-04-01 20:10:02 527
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人