python
胖大海瘦西湖
乐观,积极进取
展开
-
python字符编码显示中文
默认linux下,>>> str1=u'中文'>>> str2='中文'>>> str1,str2(u'\u4e2d\u6587', '\xe4\xb8\xad\xe6\x96\x87')windows下:(u'\u4e2d\u6587','\xd6\xd0\xce\xc4')从这点可看出,windows终端默认是gb2312,linux终端默认是utf-8原创 2015-04-21 11:35:37 · 1329 阅读 · 0 评论 -
pyspark实现Apriori算法、循环迭代、并行处理
from pyspark import SparkContextmyDat=[ [ 1, 3, 4,5 ], [ 2, 3, 5 ], [ 1, 2, 3,4, 5 ], [ 2,3,4, 5 ] ]sc = SparkContext( 'local', 'pyspark')myDat=sc.parallelize(myDat) #得到输入数据RDD #myDat.collect(): [原创 2016-06-05 20:40:19 · 9629 阅读 · 0 评论 -
pyspark+nltk处理文本数据
环境条件:hadoop2.6.0,spark1.6.0,python2.7,下载代码和数据代码如下:from pyspark import SparkContextsc=SparkContext('local','pyspark') data=sc.textFile("hdfs:/user/hadoop/test.txt")import nltkfrom nltk.corpus i原创 2016-06-03 17:20:28 · 2679 阅读 · 0 评论 -
Apriori算法的python实现
原始链接:基于Python的机器学习实战:Apriori原始链接里的代码是在python2下写的,有的地方我看的不是太明白,在这里,我把它修改成能在python3下运行了,还加入了一些方便自己理解的注释。#coding=utf8#python3.5#http://www.cnblogs.com/90zeng/p/apriori.htmldef loadDataSet():转载 2016-06-04 21:55:51 · 14495 阅读 · 2 评论 -
pandas+matploblib画图 叠加两张图
《python数据分析与挖掘实战》原书上的例子:%matplotlib inlineimport matplotlib.pyplot as pltimport pandas as pdplt.rcParams['font.sans-serif'] = ['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False #用来原创 2016-06-09 22:42:07 · 37858 阅读 · 2 评论 -
python 递归程序中对象的浅拷贝与深拷贝
参考这个博客最长公共子序列(LCS)问题,写出了C++版的找出所有最大公共子序列的代码,然后我需要将这个代码用python实现一个,按照C++的逻辑,写出来后,但是最终的结果死活不正确,最后发现问题在于:递归过程中,递归变量在python中仅有一份,递归分支不能很好的保持过程中的状态量,需要对象的深拷贝。#coding=utf8#python3.5import copyMAX=10原创 2016-10-22 09:49:26 · 1213 阅读 · 0 评论 -
python json json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes
>>> import json>>> test="{'data':'123'}">>> result=json.loads(test)Traceback (most recent call last): File "", line 1, in File "d:\Anaconda3\lib\json\__init__.py", line 319, in loads retur原创 2016-05-09 19:34:43 · 37022 阅读 · 0 评论 -
python json 各种奇葩错误解决示例
#encoding=utf-8#python2.7''' 通过这个网站可以检验json格式:http://www.bejson.com/ re正则表达式:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html'''import reimport jsonwith open("74508.txt","r") as fr原创 2017-01-08 18:33:21 · 3544 阅读 · 0 评论 -
python sklearn decision_function、predict_proba、predict
import matplotlib.pyplot as pltimport numpy as npfrom sklearn.svm import SVCX = np.array([[-1,-1],[-2,-1],[1,1],[2,1],[-1,1],[-1,2],[1,-1],[1,-2]])y = np.array([0,0,1,1,2,2,3,3])# y=np.array([1,1原创 2017-04-17 15:37:20 · 27155 阅读 · 6 评论 -
matplotlib savefig 保存图片大小
在用matploblit画图时,如果图例比较大,画在图中就会挡着线条,这时可以用以下语句把图例画到图外面:plt.legend(bbox_to_anchor=(1.01, 1), loc=2, borderaxespad=0., handleheight=1.675)这个语句可以解决图例遮挡线条的问题,同时,也引入了另外的问题:会使savefig保存图片时,不能将图片完整保存,会使图例保存原创 2017-04-23 19:34:41 · 41056 阅读 · 0 评论 -
matplotlib subplots 调整子图间矩
在matplotlib中,用subplots画子图时,有时候需要调整子图间矩,包括子图与边框的间矩,子图间上下间矩,子图间左右间矩,可以使用fig.tight_layout()函数:Help on method tight_layout in module matplotlib.figure:tight_layout(renderer=None, pad=1.08, h_pad=Non原创 2017-07-01 12:17:23 · 12750 阅读 · 0 评论 -
matplotlib subplots 设置每个子图的x轴的标号
matplotlib subplots 设置每个子图的x轴的标号,需要使用ax0.set_xticklabels(['a','b','c'...])原创 2017-07-01 12:19:49 · 8162 阅读 · 1 评论 -
matplotlib subplots 设置总图的标题
matplotlib subplots 设置总图的标题 :fig.suptitle(dname,fontsize=16,x=0.53,y=1.05,)原创 2017-07-01 13:26:23 · 13534 阅读 · 1 评论 -
python scrapy 向parse传递参数、标识
在做爬foursquare的爬虫时,需要在parse函数里以userid为文件名进行保存,有一种最简单的方法,那就是在构造初始链接时,将id=[userid]作为参数加入到链接中,start_urls =[ 'http://foursquare.com/user/%d?id=%d' %(n,n) for n in range(99660,99665) ] 这个参数会被foursqua原创 2016-09-21 22:40:32 · 8591 阅读 · 2 评论 -
python wechat_sdk SSLError
在用wechat_sdk开发微信公众号时,出现了以下错误:SSLError: HTTPSConnectionPool(host='api.weixin.qq.com', port=443): Max retries exceeded with url最开始以为是代码写的不对的问题,最后想起来,之前更新了一次requests包,我把requests包改回低版本就没问题了。相关链接:S原创 2017-08-28 11:05:08 · 2273 阅读 · 1 评论 -
pandas操作积累
1、DataFrame增加一列:>>> test1=pd.DataFrame([1,2,3],index=[1,2,3])>>> print(test1) 01 12 23 3>>> test1['1']=pd.DataFrame([2],index=[2]) #增加一列,只有对应行号的元素有值>>> print(test1) 0 11 1 NaN原创 2016-06-17 13:01:53 · 681 阅读 · 0 评论 -
numpy判断数值类型、过滤出数值型数据
numpy是无法直接判断出由数值与字符混合组成的数组中的数值型数据的,因为由数值类型和字符类型组成的numpy数组已经不是数值类型的数组了,而是dtype='1、math.isnan也不行,它只能判断float("nan"):>>> import math>>> math.isnan(1)False>>> math.isnan('a')Traceback (most recen原创 2016-06-17 12:21:14 · 16124 阅读 · 0 评论 -
python记录
>>> ss=[var if not var%2 else var+10 for var in range(1,10)]>>> ss[11, 2, 13, 4, 15, 6, 17, 8, 19]在上例中,if语句与前面的var相结合,不能没有else,如果没有的话,会出错(而且,就算改为else pass,或者else continue也会出错,因为if-else的这种特殊写法在这里必须原创 2016-05-26 20:46:26 · 395 阅读 · 0 评论 -
安装Scrapy
安装python 四步:1.python2.72.lxml-------http://blog.csdn.net/zhaokuo719/article/details/82094963.openssl--------http://blog.chinaunix.net/uid-20479991-id-216269.html(如果这个出现'ml.exe'问题,那么最简单的方法是去下载低原创 2015-04-14 10:03:51 · 582 阅读 · 0 评论 -
主机字节序与网络字节序的转换:ntohl()与htonl()
#!/usr/bin/env python#coding=utf-8import socketdef convert_integer(): data=1234 #32-bit print "Original: %s => Long host byte order: %s, Network byte order: %s"\ %(data,socket.ntohl(data),so原创 2015-04-24 11:47:22 · 2171 阅读 · 0 评论 -
ubuntu下python2.7与python3.4共存及切换
python3:virtualenv -p /usr/bin/python3 /home/snow/py3envsource /home/snow/py3env/bin/activatepip install package-namepython2:virtualenv -p /usr/bin/python /home/snow/py2envsource /home原创 2015-09-20 16:15:36 · 3311 阅读 · 0 评论 -
Django1.8 python3 验证码 ImageFont.truetype IOError:cannot openresource
font=ImageFont.truetype("ARIAL.TTF", random.randrange(25,50))一个简单的解决办法是:改为font=ImageFont.load_default().font原创 2015-11-15 17:17:28 · 5129 阅读 · 1 评论 -
用python实现c4.5算法,并进行悲观剪枝
#coding=utf-8import xlrdimport xlwtimport mathimport operatorfrom datetime import date,datetimefrom sklearn import datasets##计算给定数据集的信息熵def calcShannonEnt(dataSet): numEntries = len(dataS原创 2015-12-21 13:43:57 · 8564 阅读 · 11 评论 -
用python实现BP神经网络
#coding=utf-8import numpy as npimport sklearn.datasetsimport sklearn.linear_modelimport matplotlib.pyplot as pltfrom mlxtend.evaluate import plot_decision_regionsimport sys# Generate a dataset原创 2016-03-02 13:15:29 · 10562 阅读 · 3 评论 -
微信开发 python django 多客服接口发送到客户端的消息乱码
在用python django做服务器进行微信开发时,想通过多客服接口向指定的用户发消息,代码如下: url='https://api.weixin.qq.com/cgi-bin/message/custom/send?access_token='+str(access_token) #content=to_text(content) data={ "touser":openid,原创 2016-05-26 08:45:48 · 2235 阅读 · 0 评论 -
python re.findall 遇到的小问题
原始文件中数据格式如下:{ "subscribe": 1, "openid": "ozJBZuCmclX2DJssCnIYedo0qVzQ", "nickname": "宝玉原创 2016-05-10 20:44:44 · 1599 阅读 · 0 评论 -
python编码问题:\ufeff8804转换为8804
>>> ss='\ufeff8804'>>> ss.encode('utf-8').decode('utf-8-sig')'8804'编码转换请参考:http://stackoverflow.com/questions/17912307/u-ufeff-in-python-string原创 2016-05-13 11:26:07 · 1684 阅读 · 0 评论 -
python中的map和filter操作
>>> ss=[1,2,3,4,5,6]>>> map(lambda x: x if not x%2 else '',ss)>>> [var for var in map(lambda x: x if not x%2 else '',ss)]['', 2, '', 4, '', 6]>>> filter(lambda x: x,map(lambda x: x if not x%2 els原创 2016-06-05 13:28:01 · 902 阅读 · 0 评论 -
pandas SettingWithCopyWarning
《Python数据分析与挖掘实战》原书上的例子,运行后会出现SettingWithCopyWarning的警告:#拉格朗日法进行插补import pandas as pdfrom scipy.interpolate import lagrange #导入拉格朗日插值函数inputfile='python数据分析与挖掘实战/chapter4/demo/data/catering_sale.原创 2016-06-10 15:16:38 · 5744 阅读 · 2 评论 -
FutureWarning: in the future, boolean array-likes will be handled as a boolean array index
>>> import numpy as np>>> test=np.array([1,2,3])>>> test3=test[[False,True,False]]__main__:1: FutureWarning: in the future, boolean array-likes will be handled as a boolean array index>>> test3=te原创 2016-06-11 20:47:46 · 2640 阅读 · 0 评论 -
pandas选取特定索引的行
>>> import numpy as np>>> import pandas as pd>>> index=np.array([2,4,6,8,10])>>> data=np.array([3,5,7,9,11])>>> data=pd.DataFrame({'num':data},index=index)>>> print(data) num2 34 5原创 2016-06-11 21:17:40 · 44562 阅读 · 0 评论 -
python3 urllib post json
用python django做微信开发,设置用户分组时,如下代码出现错误:TypeError: POST data should be bytes or an iterable of bytes. It cannot be of type str.url='https://api.weixin.qq.com/cgi-bin/groups/members/update?access_to原创 2016-06-13 16:35:44 · 12026 阅读 · 1 评论 -
python2.7 中构造带u'的字符串
python中由字符串变量构造前面带u的字符串的方法:ss='test'sb=u''+str(ss)sb就是我们想要的前面带u的字符串原创 2016-05-09 18:53:14 · 3297 阅读 · 2 评论