python
power0405hf
这个作者很懒,什么都没留下…
展开
-
RST文件打开
RST与Python类似Javadoc与Java, 如果下载了别人的Python源码,里面有rst文件夹,我们可以转为html后用浏览器打开,具体为: 安装python的sphinx模块: pip install sphinx,我装的anaconda,其中已经有了,那么在cmd中进入rst的父文件夹,输入: sphinx-build -b html doc build doc是含有rst原创 2018-01-19 20:53:42 · 27412 阅读 · 1 评论 -
TP FN FP TN
Rachel-Zhang写的TP FN FP TN ROC True Positive (真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率True Negative(真负 , TN)被模型预测为负的负样本 ;可以称作判断为假的正确率False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率False Negative(假负 , FN)被模型预测为负的正样本转载 2015-12-28 19:58:36 · 19530 阅读 · 0 评论 -
Spark 使用Python在pyspark中运行简单wordcount
Spark入门(Python版) Spark1.0.0 多语言编程之python实现 Spark编程指南(python版)进入到spark目录, 然后采用默认的设置运行pyspark ./bin/pyspark配置master参数,使用4个Worker线程本地化运行Spark(local[k]应该根据运行机器的CPU核数确定) ./bin/pyspark –master local[原创 2015-11-19 21:49:52 · 34620 阅读 · 0 评论 -
Python dict 字典
1. 什么是Dictionary(字典)字典就是很多的数据,但是它有一个目录,可以通过目录中的一个简单值来找到与之相对应的详细信息。换句话说,目录就是内容的一个特殊表示,即目录中的每一个字段,都会在内容中有与之对应的详细信息。也就是说,目录中的每一个信息都是唯一的,与目录中的其他信息互不冲突。 python中的Dictionary不只是用于存储字符串,还可以是任意数据类型,包括字符串和数组,对象,原创 2015-07-19 19:45:59 · 505 阅读 · 0 评论 -
pyspark 【未完待续】
原文使用python操作spark1.使用命令行在PySpark命令行中,一个特殊的集成在解释器里的SparkContext变量已经建立好,变量名叫做sc,创建自己的SparkContext不会起作用。 * 可以通过–master参数来设置这个上下文连接的master主机 * 也可以通过–py-files参数原创 2015-11-16 21:34:34 · 458 阅读 · 0 评论 -
提交Python 代码到Spark
没有设置spark环境变量的话:cd /spark路径/bin./spark-submit /usr/qy/test_pyspark.pytest_pyspark.py:#!/usr/bin/env python# -*- coding: utf-8 -*-# Wicle Qian# 2015.11.19# test the python in Spark without pysparkfr原创 2015-11-21 15:10:20 · 11092 阅读 · 0 评论 -
pyspark Python 连接 HBase thrift
0.引言HBase-thrift项目是对HBase Thrift接口的封装,屏蔽底层的细节,使用户可以方便地通过HBase Thrift接口访问HBase集群,python通过thrift访问HBase。1.thrift安装python客户端机器安装: thrift官网 下载thrift-0.9.3.tar.gz 下载后解压到当前文件夹 tar xvf thrift-0.9.3.tar.原创 2015-11-16 14:40:03 · 4198 阅读 · 0 评论 -
Spark pyspark package
1. contentsPySpark是Spark的PythonAPI。 公共类:SparkContext: Spark运行的主要集成类。 它负责与Spark集群的connection,并且负责数据的生成和计算,以及其中的task的调度。RDD:弹性分布式数据集,Spark中的基础抽象,Spark支持对RDD进行两类操作:transformations和actions。根据已经存在的数据集创建翻译 2015-11-12 21:52:21 · 2425 阅读 · 0 评论 -
Python pandas 初步
pandas 一般用来进行数据分析。0. 引入pandasfrom pandas import Series, DataFrameimport pandas as pd1. Series1. 创建Seriesobj = Series([4,7,-5,3])> output:> 0 4> 1 7> 2 -5> 3 3# 索引在左边,值在右边print obj.values #ar原创 2015-10-25 22:41:03 · 575 阅读 · 0 评论 -
python 面向对象编程
1.引言新式类:class MyNewObjectType(bases): 'define MyNewObjectType class' class_suite经典类:没有指定一个父类,或者子类化的基本类没有父类,就创建了一个经典类class MyNewObjectType: 'define MyNewObjectType classic class' class_s转载 2015-10-11 22:28:09 · 390 阅读 · 0 评论 -
pip install -U sklearn 更新sklearn到最近版
rt原创 2015-10-12 22:39:09 · 12707 阅读 · 0 评论 -
python 模块 包
模块是用来组织python代码的方法,包是用来组织模块的。Phone/ __init__.py common_util.py Voicedta/ __init__.py Pots.py Isdn.py Fax/ __init__.py G3.py Mobile/ _转载 2015-10-11 14:18:10 · 547 阅读 · 0 评论 -
python datetime模块相关 mysql 时间戳等
原文在此 所有日期,时间的API都在datetime模块内。1.日期输出格式化strftime()函数将datetime结构格式化为一个字符串datetime =>stringnow = datetime.datetime.now()now.strftime('%Y-%m-%d %H:%M:%S') 转换控制符 说明 %a 星期几的简写形式 %A 星期几的全称 %b原创 2015-09-19 12:14:26 · 7642 阅读 · 0 评论 -
HBase Thrift 接口函数
参考文献hbase源码系列(十四)Compact和Split最重要的:class Client(Iface)1.def enableTable(self, tableName)2.def disableTable(self, tableName)3.def isTableEnabled(self, tableName)4.def compact(self, tableNameOrRegionName原创 2015-11-27 12:52:02 · 2965 阅读 · 1 评论 -
Happy Base
HappyBase is a developer-friendly Python library to interact with Apache HBase.Happy Base Github原创 2015-11-27 22:35:50 · 1114 阅读 · 0 评论 -
Python Django
大括号和%之间没有空格,一有就报错...{% url %}原创 2016-01-20 14:36:59 · 438 阅读 · 0 评论 -
最大回文子串
1.暴力法求出每个子串,之后判断是不是回文,找到最长的那个。def find_longest_palindromes(s): maxLength = 0 start = 0 for i in range(len(s)): for j in range(i+1, len(s)): temp1 = i temp2 =原创 2016-09-25 19:47:14 · 356 阅读 · 0 评论 -
Python数组赋值问题
n = 5dp = [[0]*5 for i in range(5)]for i in range(n): dp[i][i] = 1for i in dp: print i输出:[1, 0, 0, 0, 0][0, 1, 0, 0, 0][0, 0, 1, 0, 0][0, 0, 0, 1, 0][0, 0, 0, 0, 1]dp2 = [[0] * 5 ]* 5f原创 2016-09-23 21:42:22 · 22427 阅读 · 0 评论 -
百度面试题之二叉树层次遍历(从上到下,从下到上)
1.二叉树的层次遍历 递归解法class Node(object): def __init__(self, v, left=None, right=None): self.value = v self.left = left self.right = right# 层次遍历入口函数def level_tranverse_iterate(nod原创 2016-09-22 21:44:03 · 1417 阅读 · 0 评论 -
全排列
Pythondef perm(s, first, num): if first == num - 1: print s return for i in range(first, num): s[i], s[first] = s[first], s[i] perm(s,first+1, num) s[i],原创 2016-09-01 13:56:31 · 284 阅读 · 0 评论 -
最大奇约数
题目: 给定一个数,如10,它的约数是1,2,5,10,最大奇约数就是5,(约数里面最大的那个奇数),现在给定一个n,求1-n内每个数的最大奇约数的和。 如输入: 7 则计算1,2,3,4,5,6,7的奇约数之和=1+1+3+1+5+3+7=21 输出: 21 idea:很明显,奇数的最大奇约数就是它本身,关键是偶数的最大奇约数怎么快速求出. 一般,一个偶数不断除以2,直到是奇数为止原创 2016-09-15 14:15:48 · 1204 阅读 · 0 评论 -
最大子序列和 最大子矩阵和
1.最大子序列和如果子序列和是负数,就从下一个重新开始算。#coding: utf-8#Python 2.7def max_sum_of_subsequence(a): if not a: return False maxSub = [0] * len(a) maxSub[0] = a[0] maximum = maxSub[0] for原创 2016-09-15 13:29:57 · 494 阅读 · 0 评论 -
大数
1. n!有多少个0?# 有多少个数能被5整除就有多少个0def how_many_zero(n): zero = 0 for i in range(1,n+1): if i % 5 == 0: zero += 1 print zero想了一下,上面的是错误答案,比如,25=5*5,可以分解为2个5,所以乘以25以后会得到2个0:)原创 2016-09-14 22:44:24 · 318 阅读 · 0 评论 -
华为OJ 棋盘格子路径
请编写一个函数(允许增加子函数),计算n x m的棋盘格子(n为横向的格子数,m为竖向的格子数)沿着各自边缘线从左上角走到右下角,总共有多少种走法,要求不能走回头路,即:只能往右和往下走,不能往左和往上走。输入描述:输入两个正整数输出描述:返回结果输入例子:22输出例子:6# Pythonclass Node(object): def __init__(self, x, y):原创 2016-09-02 13:42:20 · 960 阅读 · 0 评论 -
平衡三进制(可推广到n进制)
题目: 给定1,3,9,27,81这5个数,求1-121之间的任意一个数字用这5个数表示的方法,大的数字在前。 例如: 输入 19 输出:27-9+1 输入 121 输出 : 81+27+9+3+1 ps.题目是华为机试题,笔者当时由于机试时间所限,采用了打表法,这也算以空间换时间的一种。但方法比较low,回来网上查找了一下,是关于平衡进制的问题。 下面用Python和Java分别实现:原创 2016-09-13 16:20:00 · 912 阅读 · 2 评论 -
Python 多线程 生产者消费者模型
my_thread.pyimport threadingfrom time import ctimeclass MyThread(threading.Thread): def __init__(self, func, args, name=''): threading.Thread.__init__(self) self.name = name原创 2016-05-15 14:49:35 · 627 阅读 · 0 评论 -
python iris 数据集
from sklearn.datasets import load_irisiris = load_iris()print(iris.keys())n_samples, n_features = iris.data.shapeprint((n_samples, n_features))print(iris.data[0])print(iris.target.shape)print(ir原创 2016-02-29 19:38:15 · 16829 阅读 · 0 评论 -
Python matplotlib
1.Simple Plotfrom pylab import *t = arange(0.0,2.0,0.01)s = sin(2*pi*t)plot(t,s) # x, y axisxlabel('time (s)')ylabel('voltage (mV)')title('About as simple as it gets, folks')grid(True) #有小方格savef原创 2016-01-24 21:18:49 · 1336 阅读 · 0 评论 -
CentOS7 运行Python Anaconda
1.检查pythonIn:pythonOut:Python 2.7.5 (default, Jun 24 2015, 00:41:19) [GCC 4.8.3 20140911 (Red Hat 4.8.3-9)] on linux2Type "help", "copyright", "credits" or "license" for more information.ps:系统自带Py原创 2015-08-19 10:18:49 · 3447 阅读 · 4 评论 -
PCA scikit-learn 2.5 Decomposing signals in components(matrix factorization problems)
成分中的信号分解(矩阵分解问题)2.5.1.1 exact PCA and probabilistic interpretation(精确主成分分析与概率解释)PCA是用来分解多元数据集的,该数据集由一系列正交成分组成,表明了方差的最大值。 在PCA中,数据从原来的坐标系转换到了新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴的选择和第一翻译 2015-10-10 21:50:09 · 591 阅读 · 0 评论 -
python assert
1.assertassert语句用来声明某个条件是真的。如果你非常确信某个你使用的列表中至少有一个元素,而你想要检验这一点,并且在它非真的时候引发一个错误,那么assert语句是应用在这种情形下的理想语句。当assert语句失败的时候,会引发AssertionError。mylist = ['item']assert len(mylist) >= 1mylist.pop()'item'转载 2015-07-17 09:27:09 · 486 阅读 · 0 评论 -
pip install 报错:Microsoft Visual C++ 9.0 is required Unable to find vcvarsall.bat
有时候,在Windows7x64下使用pip安装包的时候提示报错:Microsoft Visual C++ 9.0 is required (Unable to find vcvarsall.bat)环境:windows8 x64 ,python2.7 ,VS2012解决方案:Microsoft Visual C++ Compiler for Python 2.7 下载以后得到一个 VCFor原创 2015-07-16 10:46:58 · 1123 阅读 · 0 评论 -
VS2012 + SWIG Python
平台:window 8, Visual Studio 2012, Python 2.7(x64)1. 下载swig安装包首先在www.swig.org下载swig安装包,把文档也下载下来以备日后使用。解压安装包到任意路径,路径中最好不要带空格。2. 制作源文件和swig接口文件我的文件如下C/C++ code/* sample.h */#ifndef SAMPLE_H#define SAMPLE原创 2015-07-15 18:54:50 · 2510 阅读 · 0 评论 -
NLTK 2 获得文本语料和词汇资源
1 获得文本语料库1.1 古登堡语料库(Project Gutenberg)#nltk包含gutenberg的一小部分文本import nltknltk.corpus.gutenberg.fileids()emma=nltk.corpus.gutenberg.words('austen-emma.txt')print len(emma) #192427f原创 2015-07-07 13:50:06 · 1259 阅读 · 0 评论 -
NLTK——NLP编程的基础工具
1.NLTK入门1.下载NLTK,可用pip install nltk,anaconda本身已经有NLTK了,可直接使用。2.下载NLTK的范例文本,import nltknltk.download()#下载Collections下的book3.使用基本函数3.1 concordance 查找指定词from nltk.book import *text1.concordance("monst原创 2015-07-06 22:29:13 · 2263 阅读 · 0 评论 -
python extend append
very good: Python程序员的常见错误[1,2].extend([1,2,3]) [1,2,1,2,3] [1,2].append([1,2,3]) [1,2,[1,2,3]] append向后面添加元素,参数可以是任何东西,将作为元素添加到列表尾部。 extend使用一个序列扩展另一个list,参数是序列。序列中的元素将逐项添加到列表的尾部。1.不要试图从那些会改变对象的函转载 2015-07-26 22:17:39 · 572 阅读 · 0 评论 -
python itertools模块
import itertools1.有序排列a=itertools.permutations([1,2,3,4],2)print a#结果: <itertools.permutations object at 0x0000000001FD8F10>print list(a)#结果:[(1, 2), (1, 3), (1, 4), (2, 1), (2, 3), (2, 4), (3, 1原创 2015-06-12 22:38:52 · 395 阅读 · 0 评论 -
Python random模块
原文1.random.random()生成一个0到1的随机浮点数 0<=n<=1.02.random.uniformrandom.uniform(a,b):用于生成一个指定范围内的随机浮点数,两个参数,一个是上限,一个是下限。 如果a > b,则生成的随机数n: a <= n <= b。 如果 a< b, 则 b <= n <= a。print random.uniform(10,20)3.转载 2015-06-12 22:18:15 · 402 阅读 · 0 评论 -
python adaboost 自适应数据加载函数
def loadDataSet(filename): numFeat=len(open(filename).readline().split('\t')) dataMat=[];labelMat=[] fr=open(fileName) for line in fr.readlines(): lineArr=[] curLine=lin转载 2015-05-17 15:47:42 · 827 阅读 · 0 评论 -
python 爬虫(4)urllib2的使用细节与抓站技巧
1.Proxy的设置urllib2默认会使用环境变量http_proxy来设置HTTP Proxy。 如果想在程序中明确控制Proxy而不受环境变量的影响,可以使用代理。# -*-coding:utf-8 -*-import urllib2enable_proxy=Trueproxy_handler=urllib2.ProxyHandler({"http":'http://some-prox转载 2015-04-16 17:55:41 · 438 阅读 · 0 评论