garnetreds7-CSDN博客

原创 python中关于时间变量的处理

时间在python中有3中存储方法： 1.str 2.float 3.struct tuple(time.struct_time 或 datetime.datetime)#time.struct_time形如：time.struct_time(tm_year=2016, tm_mon=11, tm_mday=13, tm_hour=8, tm_min=53, tm_sec=53,

2016-11-13 09:22:46 9007

cPickle可以对任意一种类型的python对象进行序列化操作,比如list,dict,甚至是一个类的对象等。import cPickle as pickle方法：1.pickle.dump(data, file)将python对象序列化保存到本地的文件。file参数是文件打开的句柄，常用open(‘file_address’, ‘w’)pickle.dump(data, open('data.p

2016-11-13 08:41:31 423

原创 python time 模块

1.time.clock()该函数有两个功能: 1.在第一次调用的时候，返回的是程序运行的实际时间; 2.以第二次之后的调用，返回的是自第一次调用后,到这次调用的时间间隔.在win32系统下，这个函数返回的是真实时间（wall time），而在Unix/Linux下返回的是CPU时间。

2016-11-13 08:29:02 266

原创 xgboost 安装

作为使用python进行机器学习的有力工具，在windows平台上的安装如下：下载gitgit地址git bash安装完成后，打开git bash，在命令行中依次输入：git clone --recursive https://github.com/dmlc/xgboostcd xgboostgit submodule initgit submodule updatealias make='mi

2016-10-27 15:08:50 271

原创 python-类属性及方法

属性__dict__维护类或实例中所有的成员。class SubStrClass(str): a = 1 def __init__(self): self.b = 2 def myprint(self): passprint SubStrClass.__dict__print SubStrClass().__dict__结果：{'a': 1, '_

2016-10-22 20:35:36 1012

原创 python-dict

dict.items()items()方法返回字典的(键，值)元组对的列表。DictTest = { 1 : 'a', 'b' : 2, 'abc' : 'test', 101 : 7}print DictTest.items()结果：[(1, 'a'), ('b', 2), ('abc', 'test'), (10

2016-10-22 19:07:42 325

原创 sklearn初步学习

安装要求： Python (>= 2.6 or >= 3.3), NumPy (>= 1.6.1), SciPy (>= 0.9).首先在安装numpy和scipy包。在保证有这两个包的情况下，使用如下命令即可实现sklearn包的安装：pip install -U scikit-learn

2016-10-15 21:52:04 301

原创 python-struct模块

需要处理二进制数据时使用，例如在socket发送、接受的数据中。因为在网络通信中，数据先被打包成结构体（struct）类型，再被打包成二进制字符串流来进行传输。所以数据需要打包和拆包。struct模块的功能就是在python字符串与c结构体之间进行转化。主要有三个函数。pack(fmt, v1, v2, …)作用：按照fmt提供的格式（即v1，v2等python数据类型），将v1,v2…等数据封装成

2016-10-15 14:39:54 752

原创 python-json模块

编码Encode方法将Python对象编码成json字符串import jsondata = { 'a': 'a', 'b': 'b', 'c': 7, 'd': 'hello',}ecd_data = json.dumps(data)print ecd_data, type(ecd_data)输出：注意以下输出前面一项为字符串[{"a": "a", "c": 7,

2016-10-13 22:25:05 270

原创 Scrapy 学习

Scrapy安装在Windows cmd中输入命令： pip install scrapy就会自动下载安装Scrapy。等待安装完成就能使用。也可以在cmd中输入以下命令，来查看是否安装成功： scrapy -h这个命令将会列出可用的若干命令，主要包括： startproject：创建一个新项目 genspider：根据模版生成一个新爬虫 crawl：执行爬虫 sh

2016-10-09 15:56:20 360

原创 Python爬虫基础-5（正则表达式）

Python支持的正则表达式元字符和语法：语法说明表达式实例完整匹配的字符串字符一般字符匹配自身 abc abc . 匹配除换行符”\n”之外的任意字符 a.c abc \ 转义字符，使后一个字符改变原来的意思 a\\c a\c […] 字符集。对应的位置可以是字符集中的任意字符。\字符集中的字

2016-10-07 23:25:14 487

原创 Python爬虫基础-4

urllib2使用细节Proxy 的设置urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。如果想在程序中明确控制 Proxy 而不受环境变量的影响，可以使用代理。简单的代理：import urllib2enable_proxy = Trueproxy_handler = urllib2.ProxyHandler({"http" : 'http://som

2016-10-07 20:20:10 257

原创 Python爬虫基础-3

urllib2内容扩充urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()geturl()很有用！返回获取的真实的URL，因为urlopen(或者opener对象使用的)或许会有重定向，获取的URL或许跟请求URL不同。以一个超级链接为例，来比较一下原始URL和重定向的链接：from urllib2 import Reques

2016-10-07 20:10:52 283

原创 Python爬虫基础-2

异常处理问题当urlopen不能够处理一个req时，产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。HTTPError是urlError的子类，通常在特定HTTP URLs中产生。URLError通常，URLError在没有网络连接(没有路由到特定服务器)，或者服务器不存在的情况下产生。这种情况下，异常同样会带有”reason”属性

2016-10-07 18:57:49 378

原创 Python爬虫基础-1

一、URLURL(Uniform Resource Locator),统一资源定位符。采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。 URL的一般格式为(带方括号[]的为可选项)： protocol :// hostname[:port] / path / [;parameters][?query]#fragmentURL的格式由三部分组成： 1.第一

2016-10-07 17:35:23 281

BitWorld