![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pandas
JECK_ケーキ
这个作者很懒,什么都没留下…
展开
-
pandas学习之电影评分(利用python进行统计分析)的学习笔记
之前看《利用python进行数据分析》的书,觉得里面电影评分的例子非常好。只是看别人的代码,觉得棒,实际动手自己做,还是眼高手低。印象最深的是电影《阿呆和阿瓜》男性评分很高,女性评分反而比较低。我看过这个电影,所以觉得很有趣,今天试着做了出来。代码很烂,后期再继续学习,直接贴上了。反正自己做的,不要求多好,凑合着自己看吧。尽管如此,还是实现了分析目的,就是比较男性和女性对不同电影的评分差异。解决了这个,后面就是数据合并,透视表,基本的描述统计了。其中特别要说名的是,电影的名字数据表,必须指定“原创 2022-10-30 22:46:43 · 1383 阅读 · 0 评论 -
Counter完之后,想统计字符串长度大于2的结果
最近遇到一个问题,我用Counter 统计了一下一个corpus,corpus是已经使用jieba分好的。得到一个这样的结果。我向还是统计一下字符长度大于等于2的吧。这时候c是counter返回的结果。c本身就是个字典。所以我想找出字典里key的长度大于2的。用这个 先得到dct_c2,这时候c2是一个长度大于2的字典,但是没有排序。再用sorted,按照value值排序一下。就可以得到一个近似counter的统计。这时候就得到了一个新的字典。不过不能使用.most_common()...原创 2022-06-21 10:33:51 · 208 阅读 · 0 评论 -
pandas 怎么样扩展数据,就是把加权数据,转换成个案数据
之前一直用stata,觉得有一个很好用的功能呢,就是expand,具体来说就是,比如有一个交叉表,是这样的。这是风笑天社会研究方法一书里的例子,我想把这个数据变成个案数据,让学生练习,首先,你的按照百分比,计算出每一个格子的绝对数,大概是这么多。如果使用spss统计的话,spss菜单里有一个weight 菜单。可以很轻松的解决这个问题。不需要把加权数据变成个案数据。但是如果使用excel的话,就不行,我向把数据变成这样的,就是变成单独一个人的,通俗的理解就是把权重..原创 2022-05-27 15:21:01 · 364 阅读 · 0 评论 -
记录一下实验室打开excel文件的尴尬。
实验室电脑只有原装的python本来打开excel很简单的事情。padnas直接读。结果报错。试了好几遍。都不行。这里记录一下。需要安装 两个,openpyxlxlrdpip install openpyxlpip install xlrd安装完之后,在读,如果还出错。那么 改成csv, 读csv 时。df = pd.read_csv("content.csv", engine='python')读excel时df2 = pd.read_.原创 2022-04-13 17:38:09 · 601 阅读 · 0 评论 -
制作一个中国蔬菜产量图
微博上看到的数据import geopandas as gpdchina = gpd.read_file("MLgis/feifuli3_geometry/china_provinces.json")albers_proj = '+proj=aea +lat_1=25 +lat_2=47 +lon_0=105'veg_product = pd.read_json('{"2020\\u5e7431\\u4e2a\\u7701\\u4efd\\u852c\\u83dc\\u4ea7\\u91c原创 2022-04-13 07:11:39 · 322 阅读 · 1 评论 -
删除dataframe的第一列
由于保存excel的时候,没有设置index=None。所以再读进来的时候,经常出现Unnamed 列。直接删掉的话,可以使用。df.keys()del df[df.keys()[0]]df.keys()不断重复,直到把没用的列删除干净就可以了。del 可以直接删除,不需要inplace...原创 2022-04-11 08:57:51 · 3244 阅读 · 0 评论 -
做一个世界地图
import pandas as pddf = pd.read_json('{"country":{"0":"Norway","1":"Iceland","2":"Sweden","3":"New Zealand","4":"Canada","5":"Finland","6":"Denmark","7":"Ireland","8":"Australia","9":"Netherlands","10":"Taiwan","11":"Switzerland","12":"Luxembourg","13...原创 2022-04-03 16:13:48 · 573 阅读 · 0 评论 -
儿童视力数据(2)
接上文生成一个近视指标。看看不同年龄段的近视比例df['idx_of_nearSight'] = (df['sight_impaired'] == True ) & ((df['right_s'] < -0.5) |(df['left_s'] < -0.5))df['idx_of_nearSight'].value_counts()df.groupby('type')['idx_of_nearSight'].value_counts(normalize=True).原创 2022-02-16 06:03:14 · 530 阅读 · 3 评论 -
记录一次数据分析的过程。儿童视力数据(1)
最近分析了一个儿童视力数据,记录一下。有需要数据的小伙伴可以去下载。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport reimport osimport seaborn as snsimport scipy.stats as ssplt.rcParams['font.family'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = Fal原创 2022-02-16 04:27:25 · 870 阅读 · 4 评论 -
列联表分析程序,以卢淑华书上的例子为例
#---------------------------------------------------------##--- * 我的 列联表数据构造 * ----##--------------------------------------------------------#like = np.array([[1, 2, 3], [1, 2, 3], [1, 2, 3]])freq = np.repeat(like, [20, 5, 2.原创 2021-11-22 18:20:19 · 1193 阅读 · 0 评论 -
爬虫+数据分析,制作一个世界疫情人数增长动态柱状竞赛图2
有了上面的数据,直接读进来。allData = pd.read_pickle(os.path.join(data_dir, "allData疫情数据"))然后,提取日期,congfirm,组成dataframedef make_data(allData): col = allData.keys() dct_coutry = {} for c in col: one_country = allData[c] list = one_c.原创 2021-10-05 23:10:19 · 373 阅读 · 0 评论 -
爬虫+数据分析,制作一个世界疫情人数增长动态柱状竞赛图
世界疫情的数据很多网站都有,这里我还是使用手机网易的疫情数据接口。首先,切换ua,换成手机模式。百度搜索“网易 疫情”,第一个就是。打开这个网址,点开开发者工具,刷新一下。就可以看到有这么几个,第一个请求,就是数据但是这里我们要用的是世界疫情。所以,还得往下多看几眼。这第一个请求里,会给你今天的世界疫情数据。但是我们想绘制的是随着时间变化,增长的数据竞赛柱状图。只有一天是不行的。但是,这里有一个游泳的数据是,areaTree下面,每一个国家的id都有了。后面用数据的请求.原创 2021-10-03 23:26:36 · 888 阅读 · 2 评论 -
使用geopandas 制作中国疫情地图
最近要做一个中国地图,以前用pyecharts,最近接触了geopandas 觉得很强大,改用geopandas作图。比如我制作一个疫情分布地图,效果应该是这样的。最终效果。首先导入需要用的库:import pandas as pdimport matplotlib.pyplot as pltimport requestsimport geopandas as gpdplt.rcParams['font.family'] = 'SimHei'然后使用爬虫把疫情数据怕取下来,我使用.原创 2021-10-01 11:29:53 · 1656 阅读 · 0 评论 -
记录一下pandas的分组统计功能,agg
主要是记录一下pandas学习,最近要统计一个数据,我向以前stata里面有一个很好用的函数,就是tabstat,可以分组统计,并且输出很多指标。最近处理数据我的数据是这样的。我向按照 valid_num分组,统计avg_stand的均值,标准差,最大,最小。最先想到是的stata的tabstat,以前用的很舒服。现在换python了。感觉可以用groupby,但是不知道怎么用。百度了 一下。group1 = df_avg.groupby('valid_num')group1['a.原创 2021-07-19 22:57:33 · 311 阅读 · 0 评论 -
python正则替换部分字词,更新字典键名,通过字典构造数据
首先,正则替换部分字,这个还是挺有用的,比如姚把人名的某一个字符替换成*,保障隐私,一个两个手动还可以多了就麻烦。比如有一个名字列表我要快速把中间的字符替换成*号。for k, v in dct230.items(): print(k) k2 = re.sub(r"([\u4e00-\u9fa5])([\u4e00-\u9fa5])([\u4e00-\u9fa5]{0,1})", r"\1*\3", k) print(k2) dct230[k2] = .原创 2021-07-18 23:33:18 · 583 阅读 · 0 评论