python数据分析实战
进行项目数据分析总结
lys_828
up、up、down、up。wechat联系方式即为博客名称,邮箱为xianl828@163.com
展开
-
时间序列特征分析汇总(以2012-2019年槽罐车事故数据为例)
事故时间特征序列分析汇总引言1 数据读取和时间特征转化1.1 先将时间的字段组合成为统一的形式1.2 再将标准形式的日期字段转化为datetime1.3 提取年、月、日字段信息1.4 查看日期是在第几周1.5 查看日期是在周几2 特定字段的数据提取2.1 字符串extract方法使用2.2 apply/map结合正则表达使用3 单字段多特征进行计数统计3.1 将所有的特征都添加到列表中,转化为Series数据进行计数3.2 使用字典计数的方式进行统计3.3 使用pd.explode()方法提取多特征转化为S原创 2020-11-10 15:46:04 · 2142 阅读 · 19 评论 -
【python数据分析实战】知乎数据清洗整理和结论研究(看看人员分布情况和学历如何?)
0. 数据:来自知乎的爬取以及第六次人口普查的数据1. 前期准备导入相关库和设置程序运行路径import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport osos.chdir(r'C:\Users\86177\Desktop')print('finished!')–> 输出的结果...原创 2020-03-21 22:12:39 · 983 阅读 · 4 评论 -
【python数据分析实战】电商打折套路解析(4)—— 商家营销套路挖掘?
1. 指标选取假使是从下面三个方面进行商家营销套路评价的 ① 不同品牌参加双11活动的商品总数 ② 不同品牌的商品折扣率 ③ 不同品牌打折商品比例其中第一个指标已经在之前的操作中获得了,接下来就是获取后面的两个指标,最后将这三个指标进行汇总即可2. 筛选出不同品牌的折扣率...原创 2020-03-18 22:31:57 · 785 阅读 · 0 评论 -
【python数据分析实战】电商打折套路解析(3)—— 哪些商品真的在打折?其折扣率是多少?
1. 划分商品销售时期1) 首先需要重新的取出加载的原始表格中所需字段的数据2) 其次就是针对销售的时间进行时期的划分,就类似之前处理的商品类别的划分。划分的依据如下 划分时段为:‘双十一前’(4-10),‘双十一当天’(11),‘双十一后’(11-14);3)接着针对每个商品,评估其打折的情况 真打折:商品的价...原创 2020-03-18 22:31:32 · 1978 阅读 · 0 评论 -
【python数据分析实战】电商打折套路解析(2)—— 各个品牌参与双十一活动的商品数量分布是怎样的?
1. 真正参与双十一活动的商品品牌这里应该包含的数据为双十一当天在售的 + 双十一之前预售的(套路嘛,都懂的,预售的商品会让买家预付定金,然后在双十一当天,当然去年双十一也有部分是在第二天凌晨付账,但是都是属于双十一的购物策略)...原创 2020-03-17 01:50:46 · 717 阅读 · 0 评论 -
【python数据分析实战】电商打折套路解析(1)—— 各个品牌都有多少商品参加了双十一活动?
1. 前期准备引用相关库、设置程序运行路径import osos.chdir(r'C:\Users\86177\Desktop')import warningswarnings.filterwarnings('ignore')import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom bo...原创 2020-03-17 01:50:16 · 942 阅读 · 0 评论 -
【python数据分析实战】城市餐饮店铺选址问题(2)—— 确定餐馆的具体位置
1. 选址的评价指标如下: 人口密度指标 → 得分越高越好 道路密度指标 → 得分越高越好 餐饮热度指标 → 得分越高越好 同类竞品指标 → 得分越低越好 综合指标 = 人口密度指标x0.4 + 餐饮...原创 2020-03-15 16:06:20 · 3007 阅读 · 5 评论 -
【python数据分析实战】城市餐饮店铺选址问题(1)—— 对不同菜系进行比较,并筛选出可开店铺的餐饮类型
1. 首先将要使用的库全部进行导入,并设置程序运行路径import osos.chdir(r"C:\Users\86177\Desktop")#设置路径import pandas as pdimport matplotlib.pyplot as plt#处理数据及绘图import warningswarnings.filterwarnings('ignore')#忽略警报fro...原创 2020-03-15 16:05:52 · 2246 阅读 · 8 评论 -
【python数据分析实战】国产烂片深度揭秘(5)—— 不同导演每年的电影产量如何?
1 时间序列分析也就是对不同导演电影上映的时间进行整理,就得要求两个字段的数据不能为空值,一个是导演字段,一个就是电影上映日期字段1) 空白数据的清楚df_year = df[(df['导演'].notnull()) & (df['上映日期'].notnull())][['电影名称','导演','豆瓣评分','上映日期']]print(df_year)–> 输出结果为:(...原创 2020-03-14 19:40:03 · 1297 阅读 · 0 评论 -
【python数据分析实战】国产烂片深度揭秘(4)——卡司数量与烂片的关系
卡司数量卡司是一个中式英语,是英语cast的中文音译,意思是演员阵容,是台湾和香港地区常用名词。英语“CLASS”的粤语拟音(类似于“的士”“芝士”等用法),意思是“级别、等级、格调”。“这个男人很卡司。”这里的“卡司”就是指实力很强劲。1 主演人数与烂片比例1) 将主演中的人数进行统计df['主演人数'] = df['主演'].str.split('/').str.len()df_...原创 2020-03-14 19:39:45 · 914 阅读 · 0 评论 -
【python数据分析实战】国产烂片深度揭秘(3)——和什么国家更容易产生烂片?
1 数据筛选1)首先完成的是选取字段中包含‘中国大陆’的电影,这样自然就只剩下了中国大陆自己拍摄的电影以及合拍的电影df_loc = df[['电影名称','制片国家/地区','豆瓣评分']][df['制片国家/地区'].notnull()]df_loc = df_loc[df_loc['制片国家/地区'].str.contains('中国大陆')]2)筛选出电影合作的不同国家,去重l...原创 2020-03-14 19:39:26 · 709 阅读 · 0 评论 -
【python数据分析实战】国产烂片深度揭秘(2)——什么题材的电影烂片最多?
要求:① 按照“类型”字段分类,筛选不同电影属于什么题材② 整理数据,按照“题材”汇总,查看不同题材的烂片比例,并选取TOP20③ 将得到的题材烂片比例TOP20制作散点图 → 横坐标为“题材”类型,纵坐标为烂片比例,点大小为样本数量** 用bokeh制图** 按照烂片比例做降序排列提示:① 删除“类型”字段空值的数据② 由于一个电影“类型”会有多个,这里需要将一个电影每个“类型”...原创 2020-01-26 11:24:52 · 1661 阅读 · 5 评论 -
【python数据分析实战】国产烂片深度揭秘(1)——以“豆瓣评分”为标准,看看电影评分分布,及烂片情况
要求:代码运行环境为jupyter notebook① 读取数据“moviedata.xlsx”② 查看“豆瓣评分”数据分布,绘制直方图、箱型图③ 判断“豆瓣评”数据是否符合正态分布④ 如果符合正态分布,这里以上四分位数(该样本中所有数值由小到大排列后第25%的数字)评分为“烂片标准”⑤ 筛选出烂片数据,并做排名,找到TOP20提示:① 读取数据之后去除缺失值② 这里可以用ks检...原创 2020-01-26 10:22:03 · 3340 阅读 · 3 评论