python
Chaos_Yeats
我想要的究竟是什么?因为无法做到我全都要?
展开
-
python读取大文件,分片保存
# -*- coding: utf-8 -*-import hashlib import timeimport sysfilename = sys.argv[1]partsize = int(sys.argv[2])prefix = sys.argv[3]print("split file...")partn = 0# 读取文件data = ""with open(filename, 'r') as f: for line in f: data = data原创 2022-04-18 12:08:35 · 1234 阅读 · 0 评论 -
从mysql数据库集群中读取数据并保存
suffix = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f']def get_data_from_db(database): try: conn = MySQLdb.connect(host = DB[database]['host'], port = DB[database]['port'], user="xxxxxxxxx", passwd="xxxxxxxxxx原创 2021-09-18 11:25:57 · 163 阅读 · 0 评论 -
python将标点符号替换为特定字符
def translate_puctuation_2_special_character(ts): from string import punctuation as pun_en from zhon.hanzi import punctuation as pun_ch tran_pun_en = ['|']*len(pun_en) tran_pun_en = ''.join(tran_pun_en) tran_pun_ch = ['|']*len原创 2021-01-13 11:00:33 · 1271 阅读 · 0 评论 -
DataFrame的groupby结合agg自定义函数
pandas提供基于行和列的聚合操作,groupby可理解为是基于行的,agg则是基于列的从实现上看,groupby返回的是一个DataFrameGroupBy结构,这个结构必须调用聚合函数(如sum)之后,才会得到结构为Series的数据结果。而agg是DataFrame的直接方法,返回的也是一个DataFrame。当然,很多功能用sum、mean等等也可以实现。但是agg更加简洁, 而且传给它的函数可以是字符串,也可以自定义,参数是column对应的子DataFrame。例子:def comme原创 2020-12-18 10:17:16 · 3850 阅读 · 0 评论 -
plt如何给注释添加箭头
plt.annotate('二次元(确定)用户发布歌单的平均播放次数',# 注释的文字xy=(2,meanPlayList[1]),# 箭头箭尖的位置xytext=(1,meanPlayList[1]+10000),# 注释文字的位置color = "steelblue",# 文字的颜色fontsize = 14,# 文字的尺寸arrowprops=dict(facecolor='black', shrink=0.001))arrowprops参数:...原创 2020-11-12 15:14:48 · 840 阅读 · 0 评论 -
python计算分位数
quantileList = [0.25,0.5,0.6,0.7,0.75,0.8,0.85,0.9,0.95]tSdm = slPublishSdmPlayCollect['collect_uv'].sort_values().to_list()quantileSdmCollect = [tSdm[0]]quantileAllCollect = [tAll[0]]for i in range(len(quantileList)): a = quantileList[i]*(len(tSd原创 2020-11-10 19:18:42 · 1090 阅读 · 0 评论 -
交换DataFrame的两列
在许多博客中看到实现dataframe的列交换无非也就是保存一列,然后再执行插入和删除操作,实际上也一种简单得多的操作方法。>>> import pandas as pd>>> import numpy as np>>> data={"one":np.random.randn(4),"two":np.linspace(1,4,4),"three":['zhangsan','李四',999,0.1]}>>> df=pd.DataF原创 2020-09-17 14:37:05 · 3403 阅读 · 0 评论 -
使用DataFrame绘制热力图
# 绘制热图 https://blog.csdn.net/ztf312/article/details/102474190fig = plt.figure(figsize=(12,10))ax = sns.heatmap(diffLocOfAgePartRatio,cmap="YlGnBu",annot = True) # 设置颜色为由黄到蓝,并且标记数字# 设置x轴、y轴坐标for item in ax.get_xticklabels(): item.set_rotation(0) # 旋原创 2020-08-31 15:20:37 · 3328 阅读 · 0 评论 -
matplotlib画饼图
plt.figure(figsize=(9,9))labels = ['未知','00后','90后','80后','70后','70前']explode = (0,0,0,0,0,0)patches, l_texts, p_texts = plt.pie(agePartOfuser,explode=explode,labels=labels,labeldistance = 1.1,autopct='%1.1f%%',pctdistance = 0.6,shadow=False,startangle=原创 2020-08-28 17:21:18 · 143 阅读 · 0 评论 -
【Python数据分析】——药品销售数据分析(学习笔记)
本文对【Python数据分析】——药品销售数据分析(完整项目实战)一文的内容进行实现,并根据实际情况进行了相应的修改import numpy as npimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib as mpimport matplotlib.pyplot as pltfrom pylab import mpl# 设置列名对齐pd.set_option('display.unicode.a.原创 2020-08-17 19:49:46 · 1522 阅读 · 1 评论 -
pandas基础知识学习(2)-数据基本操作
>>> frame = DataFrame(np.random.randn(4,3),columns=list('bde'),index=['Utah','Ohio','Texas','Oregon'])>>> frame b d eUtah -0.418643 -1.614332 -0.137721Ohio 0.280040 0.788998 -0.402196Texas -0.9905原创 2020-08-11 17:07:32 · 199 阅读 · 0 评论 -
pandas基础知识学习(1)-数据类型
Series>>> import pandas as pd>>> from pandas import Series,DataFrame>>> obj = Series([4,7,-5,3],index=['a','b','c','d'])>>> obja 4b 7c -5d 3dtype: int64>>> obj['a']=78>>> obja原创 2020-08-10 17:15:26 · 143 阅读 · 0 评论 -
Pycharm 配置 Anaconda环境
创建一个项目,点击File->Settings,点击project:项目名,点击Project Interpreter,选择Conda Enviroment,找到anaconda安装的python包所在文件夹,选择安装的python.exe。本人的python环境为D:\software\Anaconda3\envs\python27,因此配置后如下:...原创 2020-07-29 17:44:19 · 465 阅读 · 0 评论