2016年08月_xsj_blog

原创 python io模块

StringIOStringIO顾名思义就是在内存中读写str。要把str写入StringIO，我们需要先创建一个StringIO，然后，像文件一样写入即可：from io import StringIOf = StringIO()print(f.write('hello py1 ')) # 10print(f.write('hello py2 ')) # 10print(f.write

2016-08-29 00:12:54 7865

原创 PDFMiner 操作 PDF 文件

PDFMiner介绍PDFMiner是一个可以从PDF文档中提取信息的工具。与其他PDF相关的工具不同，它注重的完全是获取和分析文本数据。- PDFMiner允许你获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个PDF转换器，可以把PDF文件转换成HTML等格式。它还有一个扩展的PDF解析器，可以用于除文本分析以外的其他用途。 PDFMiner内置两个好用的工具：pdf2tx

2016-08-28 20:28:34 6804 5

网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。HTTP协议中定义了四个与服务器进行交互的方法，分别是GET, POST,PUT,DELETE ,实际对应对服务器内容的“增”删“改”查“四个操作。本篇文章主要记录我学习GET和POST请求方式的过程首先，如何区分GET 和POST请求？我们可以简单地通过浏览器地址栏是否改变来加

2016-08-28 20:03:43 11391

转载 MySQL外键

什么是外键：主键：是唯一标识一条记录，不能有重复的，不允许为空，用来保证数据完整性外键：是另一表的主键, 外键可以有重复的, 可以是空值，用来和其他表建立联系用的。所以说，如果谈到了外键，一定是至少涉及到两张表。例如下面这两张表：上面有两张表：部门表（dept）、员工表(emp)。Id=Dept_id，而Dept_id就是员工表中的外键：因为员工表中的员工需要知道自己属于哪个部门，就可以通过外键De

2016-08-28 12:23:29 2408

原创 python 装饰器

装饰器介绍装饰器(decorator)是一种高级Python语法。装饰器可以对一个函数、方法或者类进行加工。在Python中，我们有多种方法对函数和类进行加工，比如在Python闭包中，我们见到函数对象作为某一个函数的返回结果。相对于其它方式，装饰器语法简单，代码可读性高。因此，装饰器在Python项目中有广泛的应用。装饰器最早在Python 2.5中出现，它最初被用于加工函数和方法这样的可调用对象

2016-08-28 11:31:42 508

原创 random模块

random.random作用：用于生成一个0到1的随机符点数: 0 <= n < 1.0例：>>> import random>>> random.random()0.533307237462>>> random.random()0.366637049337random.uniform函数原型： random.uniform(a, b)作用：用于生成一个指定范围内的随机符点数，两个参数其中

2016-08-27 19:35:55 1552

原创 Python atexit模块

模块简介从模块的名字也可以看出来，atexit模块主要的作用就是在程序即将结束之前执行的代码，atexit模块使用register函数用于注册程序退出时的回调函数，然后在回调函数中做一些资源清理的操作该模块主要有如下两个函数atexit.register(func, *args, **kargs) 注册函数 atexit.unregister(func)

2016-08-27 18:54:22 1010

原创 CPU密集型和I/O密集型区别

一些进程绝大多数时间在计算上，称为计算密集型（CPU密集型）computer-bound。有一些进程则在input 和output上花费了大多时间，称为I/O密集型，I/O-bound。比如搜索引擎蜘蛛大多时间是在等待相应这种就属于I/O密集型。

2016-08-27 18:32:59 16430 1

原创基本的正则表达式

findall的使用* . (点)的使用*# . (点)的使用举例，点相当于一个占位符>>> a = 'xy123'>>> b = re.findall('x.',a)>>> b['xy']>>>>>>>>> b = re.findall('x..',a)>>> b['xy1']>>>>>>>>> b = re.findall('x...',a)>>> b['xy12'

2016-08-27 10:46:11 884 1

转载用python处理MS WORD（用到python-docx库）

安装pyhton 处理 docx 文件需要使用 python-docx 包，可以利用pip工具很方便的安装，pip工具在python安装路径下的Scripts文件夹中pip install python-docx 当然你也可以选择使用easy_install或者手动方式进行安装写入文件内容此处我们直接给出一个样例，根据自己的需要摘取有用的内容#coding=utf-8from docx impor

2016-08-26 23:54:38 6486

原创 python操作MySQL数据库

我采用的是MySQLdb操作的MYSQL数据库。先来一个简单的例子吧：数据库名为 movie_info，表名为 movietry: conn = MySQLdb.connect(host='127.0.0.1', user='root', passwd='123456', db='movie_info', port=3306,charset='utf8') # conn 连接对象

2016-08-14 11:56:17 432

原创 csv文件的读取

读取 CSV 文件 python 的 CSV 库主要是面向本地文件，但进行网络数据采集的时候，很多文件都是在线的。有以下方法可以解决这个问题。手动把 CSV 文件下载到本机，然后用 python 定位文件位置；写 python 程序下载文件，读取之后再把源文件删除；从网上直接把文件读成一个字符串，然后转换成一个StringIO对象，使它具有文件的属性。综上，应选择第三种比较好，即直接把

2016-08-14 10:47:25 4385

原创网络爬虫的采集，处理，存储

#coding:utf-8import _mysql,sysimport timeimport socketimport randomimport MySQLdbfrom Queue import Queuefrom threading import Threadfrom bs4 import BeautifulSoupfrom selenium import webdriver

2016-08-13 22:42:34 1596

转载 Linux中常用操作命令

基本命令ls　　显示文件或目录 -l 列出文件详细信息l(list) -a 列出当前目录下所有文件及目录，包括隐藏的a(all)mkdir 建目录 -p 创建目录，若无父目录，则创建p(parent)cd 切换目录touch 创建空文件echo 创建

2016-08-07 10:51:51 3867

转载 Ubuntu安装Kali Linux渗透测试工具

我想大多数Linux用户都听说过Kali Linux。它是一个非常好的用于渗透测试的Linux发行版。但通常我们需要在电脑上安装一个完整的Kali Linux才能使用它各种各样的工具。LionSec开发出了一个python工具，叫做Katoolin，它可以让你在其他Linux发行版上使用 Kali的全部工具。目前仅支持ubuntu，其他发行版会陆续支持。ubuntu如何安装Katoolin首先你的u

2016-08-07 09:27:54 11746

原创【已解决】安装Scrapy过程中出错：ERROR: ‘xslt-config’ 不是内部或外部命令，也不是可运行的程序或批处理文件。

【解决过程】在http://pypi.python.org/simple/lxml/，下载win10 x64的：lxml-2.2.8.win-amd64-py2.7.exe然后重新打开cmd去pip install Scrapy，解决了此xml的问题了。

2016-08-04 20:25:40 5196 3

原创 Win10下的Linux子系统之Bash

Win10 14316 内部预览版版本。此版本以后的Win10 版本支持将Ubuntu Linux承载在Windows系统中，将当前的Ubuntu Linux 系统作为Win10的子系统运行。相当于跑了俩系统。。。。使用原生的Linux bash 工具，对Windows的文件进行管理工作，（不支持跟Win 程序进行交互）。在命令行下运行bash，对sh脚本进行运行支持。参考：http://w

2016-08-04 20:19:43 19930

原创 wget for windows 基本使用方法

网络用户有时候会遇到需要下载一批文件的情况，有时甚至需要把整个网站下载下来或者制作网站的镜像。利用wget工具，也可以实现这种功能。wget是一个命令行工具，用来下载网络文件或者整个网站，它具有自动重试、断点续传、支持代理服务器等等强大的功能。wget是在Linux下开发的开放源代码的软件，作者是 Hrvoje Niksic，后来被移植到包括Windows在内的各个平台上。wget虽然功能强大，但是

2016-08-04 19:55:32 11586

原创 pycurl模块详解

关于python网络编程，使用urllib与服务器通信时，客户端的数据是添加到Head里面通过URL，发送到服务器端，urllib包实现客户端上传文件时，会出现死掉的状态（实际上是超时设置问题）。 Pycurl包是一个libcurl的Python接口，它是由C语言编写的。与urllib相比，pycurl的速度要快很多。 Libcurl 是一个支持FTP, FTPS, HTTP, HTTPS, G

2016-08-03 13:14:00 25890 5

一个程序员的成长之路。。。