python中的一些小技巧

最新推荐文章于 2024-09-04 13:27:59 发布

旭旭_哥

最新推荐文章于 2024-09-04 13:27:59 发布

阅读量846

点赞数

分类专栏： python编程文章标签： python小技巧 python转码

本文链接：https://blog.csdn.net/luoyexuge/article/details/49069185

版权

python编程专栏收录该内容

85 篇文章 1 订阅

订阅专栏

工作中经常会碰到用python来处理一些东西，在此写博客做记录下来，后面会不断的更新中

#encoding:utf-8
'''
Created on 2015年10年10日

@author: ZHOUMEIXU204
'''

#encoding:utf-8
'''
Created on 2015年9月23日

@author: ZHOUMEIXU204
'''
import sys    #默认设置utf-8编码    防止u出现
if sys.getdefaultencoding()!="utf-8":
   reload(sys)
   sys.setdefaultencoding("utf-8")
else:
   pass

#对列表进行求频率
import  collections
test=[1,1,2,4,5,6,6]
print(collections.Counter(test))  #用于计算频数   类似于R软件里面table  pandas中的value_counts()

#对字典进行排序
test={'a':10,'b':50,'c':1}
sorted(test.iteritems(),key=lambda x:x[1],reverse=True)  #对value进行排序  按大到小排序
sorted(test.iteritems(),key=lambda x:x[0],reverse=True)  # 对keys进行排序  按大道小进行排序

#pandas中的小技巧
import  pandas as pd
df2=pd.DataFrame()
df2[df2['A'].str.contains(r'^6[0-9]{4,8}$')]   #模糊匹配
df2['A']=df2['A'].str.replace("0","1")
df2['A']=df2['A'].str.strip()
df2['A']=df2['A'].astype(int)
df2['date'] = pd.to_datetime(df2['date'])
# 如果我们想要更多复杂的筛选，我们可以可以使用map 来以多重标准进行筛选
df2[df2['A'].map(lambda x:x.startswith('61'))]  #筛选出以61开头的数据
df2["Author"].str.replace("<.+>", "").head()  #replace("<.+>", "")表示将字符串中以”<”开头;以”>”结束的任意子串替换为空字符串 经常用于邮箱替换清洗

commits = df2["Name"].head(15)
print commits.unique(), len(commits.unique())   #获的NAME的不同个数，类似于sql里面count(distinct name)





#这样显示是出来的列表是unicode编码的形式，汉字也会是unicode
for i in open(u'D:\\Users\\zhoumeixu204\\Desktop\\学习url.txt'):
    print i.decode('gbk').split()

#这样显示就正常了  ，不在出现unicode的编码
for i in open(u'D:\\Users\\zhoumeixu204\\Desktop\\学习url.txt'):
    x=str(i.decode('gbk').split()).replace('u\'','\'')
    print x.decode("unicode-escape")

#copy文件用shutil包 具体用法如下

import shutil

 shutil.copy(u'D:\\Users\\zhoumeixu204\\Desktop\\学习url.txt','D:\\')

后面会不断的陆续更新过来。。。。。。

旭旭_哥

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录