![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
PiaohuiEr
为代码而生
展开
-
Python_pandas重点数据处理
删除某列是指定值的行//删除Year=='2111','9','2105','板塔结合','NaN','板楼','暂无数据'df=df[~df['Year'].isin(['2111','9','2105','板塔结合','NaN','板楼','暂无数据'])]删除某列为NAN(空值)的行//删除Year为NAN(空值)的行df = df[df['Year'].notnull()]将非连续性数据分箱(分组)df['Year'] = pd.qcut(df['Year'],8).a.原创 2021-09-30 20:15:31 · 128 阅读 · 0 评论 -
pandas分组计算
按照A分组计算B的均值df_mean = df.groupby('A')['B'].mean()注意返回结果是dataframe类型的,不能使用列接收值原创 2021-05-13 21:52:13 · 381 阅读 · 0 评论 -
pandas桑基图数据处理
3列桑基图数据为:A、B、Cimport pandas as pdfpath="xxx.xlsx"df=pd.read_excel(fpath)#增一列计数# df["values"]=1 //按照A、B分组计数,结果给sum1# sum1=df['values'].groupby([df['A'],df['B']]).sum()//按照B、C分组计数,结果给sum2# sum2=df['values'].groupby([df['B'],df['C']]).sum()//整合原创 2021-05-11 21:23:18 · 515 阅读 · 3 评论 -
pandas获取某列前n位字符串
import pandas as pdfpath='xx.xlsx'df=pd.read_excel(fpath)df.set_index("序号",inplace=True)#指定列插入某列前n位字符串book_id=df.pop('索书号')// book_id获取第一位字符book_id=book_id.str[:1]//在第二列新增book_id列并用book_id填充df.insert(1,'book_id',book_id)//按照book_id列对新增的”类别“列填充原创 2021-05-11 20:21:01 · 19855 阅读 · 10 评论 -
pandas分组计算某列所以值出现个数
import pandas as pd//写入df=pd.read_excel("XXX.xlsx") //新增列df["num"]=1 //赋值‘课程'和"num”两列给book变量book=df[['课程',"num"]].copy()//按照课程分类,统计计算book_counts=book.groupby('课程').agg(sum)原创 2021-05-11 20:08:20 · 1159 阅读 · 0 评论 -
关于特征工程使用相关函数记录
特征工程sklearn 特征工程pandas 数据清洗、数据处理特征提取:sklearn.feature_extraction字典特征提取sklearn.feature_extraction.DictVectorizer()文本特征提取sklearn.feature_extraction.text.原创 2020-12-10 16:21:07 · 70 阅读 · 0 评论 -
机器学习的学习框架和资料介绍
大部分复杂模型的算法设计都是在算法工程师在做,而我们 - 分析数据 - 分析具体业务 - 应用常见算法 - 特征工程、调参数、优化原创 2020-12-05 13:36:22 · 120 阅读 · 0 评论