一窗星乱银河静
码龄7年
关注
提问 私信
  • 博客:360,031
    360,031
    总访问量
  • 37
    原创
  • 2,311,463
    排名
  • 220
    粉丝
  • 2
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2018-01-29
博客简介:

GengPeng的博客

博客描述:
记录数据分析学习之路中的笔记和心得
查看详细资料
个人成就
  • 获得245次点赞
  • 内容获得56次评论
  • 获得1,338次收藏
  • 代码片获得2,600次分享
创作历程
  • 1篇
    2022年
  • 1篇
    2020年
  • 5篇
    2019年
  • 31篇
    2018年
成就勋章
TA的专栏
  • 错题本
    1篇
  • python学习笔记
    31篇
  • 数据分析
    26篇
  • SQL
  • R语言学习笔记
    6篇
  • 数据可视化
    6篇
兴趣领域 设置
  • 人工智能
    机器学习深度学习神经网络自然语言处理tensorflowpytorch图像处理nlp数据分析
创作活动更多

仓颉编程语言体验有奖征文

仓颉编程语言官网已上线,提供版本下载、在线运行、文档体验等功能。为鼓励更多开发者探索仓颉编程语言,现诚邀各位开发者通过官网在线体验/下载使用,参与仓颉体验有奖征文活动。

367人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

使用pandas读取csv文件,列名开头出现\ufeff的处理

有时候用pandas的read_csv 打开文件的时候看不出什么异常,比如下图但是一旦使用列名处理数据的时候,就会出现列名错误,但是明明写的没有问题。例如如下所示那么这时候就要考虑是否有未显示的格式或者和字符,所以我们打印出列名可以看到有\ufeff的字符。通过记事本打开文件,发现文件格式是UTF-8 with BOM。来源百度百科:UTF-8:以字节为编码单元,它的字节顺序在所有系统中都是一様的,没有字节序的问题,也因此它实际上并不需要BOM(“ByteOrder Mark”)。但是U
原创
发布博客 2022.02.18 ·
1499 阅读 ·
1 点赞 ·
2 评论 ·
0 收藏

Python分组后求众数的方法

背景平均数,中位数和众数是常用的表示数据水平的统计指标。当我们想要对比不同分组的数据的差异的时候,一般来说会用到平均数,但是平均数容易受到极端值的影响,这时候中位数和众数就是一个比较好的选择。在pandas中,我们可以利用pivot_table函数和groupby函数来求分组统计量。但是这些他们都无法直接求出众数。所以就有了这边文章。方法很简单:方法df = pd.DataFrame({'a':['A','A','A','A','B','B','B','B','B'],'b':[1,1,2,3,1,
原创
发布博客 2020.10.13 ·
4494 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

广告效果聚类分析(KMeans)

前段时间做了一个项目,该客户是来自教育行业,其主要的宣传获客手段就是在各个渠道投放广告,用广告将用户引流至网站。但是广告的渠道非常多,哪些渠道效果很好,哪些效果不好。需要对广告效果分析针对性做广告效果测量和优化工作。我就想到之前学到的KMeans聚类分析广告的方法,在这里整理出来方法思路。供日后参考。import numpy as npimport pandas as pdfrom skl...
原创
发布博客 2019.05.05 ·
5594 阅读 ·
3 点赞 ·
2 评论 ·
68 收藏

R语言中的抽样方法与描述统计函数

抽样方法常见的抽样方法简单随机抽样分层抽样系统抽样# 导入数据# 1 金融 2 建筑 3 外语data <- read.csv("E:\\Github\\code-learning\\R\\data\\第11期资料\\data.csv")# 按照专业和ID排序data <- data[order(data$专业,data$ID),]head(data)...
原创
发布博客 2019.04.26 ·
10009 阅读 ·
3 点赞 ·
0 评论 ·
51 收藏

python数据可视化seaborn(四)—— 分类数据可视化

之前的文章关注的是两个变量都是数值变量的情况,当有一个变量是分类变量的时候,我们就需要其他类型的图形来展示分析数据。在seaborn中有多种类型的图形且非常易于上手。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inlinesns...
原创
发布博客 2019.04.09 ·
8980 阅读 ·
12 点赞 ·
0 评论 ·
96 收藏

python数据可视化seaborn(三)——探索变量之间的关系

python数据可视化seaborn(三)——探索变量之间的关系我们常常想知道变量之间是否存在关联,以及这些关联是否收到其他变量影响。可视化能够帮助我们非常直观的展示这些。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline...
原创
发布博客 2019.03.22 ·
9567 阅读 ·
6 点赞 ·
1 评论 ·
53 收藏

一个Python计算时间的脚本(某月第一天最后一天/上周第一天最后一天等)

因为之前的自动化的工作中几乎每个脚本都要在时间节点运行,比如每周的第一天,每月第一天和最后一天等等。这就要涉及到时间的计算,但是没有现成的包,只能自己写一个(╯‵□′)╯︵┻━┻。用例这个脚本里包含了一般自动化报表会用到的时间节点。时间节点函数方法今天today昨天yesterday()上个月是几月last_month()上月第一天last_m...
原创
发布博客 2019.03.12 ·
1066 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

python数据可视化seaborn(二)—— 分布数据可视化

这篇文章是Python可视化seaborn系列的第二篇文章,本文将详解seaborn如何探索数据的分布。import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns% matplotlib inlinesns.set(context='notebook',font='...
原创
发布博客 2018.12.27 ·
9119 阅读 ·
8 点赞 ·
1 评论 ·
91 收藏

python数据可视化seaborn(一)—— 整体样式与调色板

很久之前对seaborn有过一些涉及但是没有深入探究,这次有趁着有数据可视化的需求,就好好学一学Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,为数据分析提供了很大的便利性。但是应该把Seaborn视为matplotlib的补充,而不是替代物。这次就从最基本的图标风格和调色板开始,学习s...
原创
发布博客 2018.12.19 ·
14599 阅读 ·
6 点赞 ·
0 评论 ·
82 收藏

python判断孪生质数对(素数对)并计算个数。

很久前在知乎写的一个答案,今天把坑填了,顺便搬过来。让我们定义dn为:dn=pn+1−pn,其中pi是第i个素数。显然有d1=1,且对于n&amp;gt;1有dn是偶&amp;gt;&amp;gt;数。“素数对猜想”认为“存在无穷多对相邻且差为2的素数”。 现给定任意正整数N(&amp;lt;10^5), 请计算不超过N的满足猜想的素数对的个数。而且题目还限制了400ms时间(有没有搞错(╯‵□′)╯︵┻━┻)写出...
原创
发布博客 2018.12.13 ·
10517 阅读 ·
8 点赞 ·
10 评论 ·
9 收藏

Python利用openpyxl来操作Excel(一)

最近一直在做项目里的自动化的工作,为了是从繁琐重复的劳动中挣脱出来,把精力用在数据分析上。自动化方面python是在好不过了,不过既然要提交报表,就不免要美观什么的。pandas虽然很强大,但是无法对Excel完全操作,现学vba有点来不及。于是就找到这个openpyxl包,用python来修改Excel,碍于水平有限,琢磨了两天,踩了不少坑,好在完成了自动化工作(以后起码多出来几个小时,美滋...
原创
发布博客 2018.12.01 ·
8498 阅读 ·
12 点赞 ·
3 评论 ·
97 收藏

统计分析——描述统计之数据水平描述

一组样本数据的数值特征一般来说可以从三个方面来描述:数据的水平(也可以称之为集中趋势或位置度量),反映数据的数值大小数据的差异,反映数据间的离散程度数据的分布形状,反映数据分布的偏度和峰度描述水平的统计量数据水平是指数值大小,描述数据水平的统计量有平均数,分位数,众数,同时这几个统计量也可以用来描述数据的集中趋势度。平均数**简单平均数(simple mean)**的...
原创
发布博客 2018.11.26 ·
5336 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

R可视化之图形控制和布局基础

R语言的图形参数主要由par()函数控制,图形布局主要由layout()函数控制图形参数我们以如下数据为例剂量(dose)对药物A的响应(drugA)对药物B的响应(drugB)201615302018402725454031606040dose &lt;- c(20, 30, 40, 45, 60)drugA &l...
原创
发布博客 2018.09.25 ·
3665 阅读 ·
7 点赞 ·
0 评论 ·
20 收藏

R语言的基础语法及常用命令

R其实对于数据分析来说只是工具而已,所以刚开始不需要学习多么深多么细,只需要能够满足当前需求就行,之后的在实践中慢慢学习。毕竟想要把R学精并不是容易的事情。正确的做法就是边做边学,不会就google翻文档。本片主要是R的基础语法及常用的命令操作赋值R赋值采用&amp;lt;-或者-&amp;gt;或者=,建议采用标准的第一个。由于R中内置了同名函数c(),最好不要在编码时使用c作为对象名,否则可能产生一...
原创
发布博客 2018.09.19 ·
17017 阅读 ·
8 点赞 ·
0 评论 ·
96 收藏

R语言的数据结构

R共有6种储存数据的对象类型向量列表数组数据框矩阵因子向量(Vectors)向量是用于存储数值型、字符型或逻辑型数据的一维数组。执行组合功能的函数c()可用来创建向量。# 创建一个向量apple &amp;lt;- c('red','green',&quot;yellow&quot;)num &amp;lt;- c(12, 23, 34, 56, 78, 83)print(apple)print(nu...
原创
发布博客 2018.09.19 ·
4369 阅读 ·
9 点赞 ·
0 评论 ·
18 收藏

在jupyter notebook中使用R语言

最近学习R语言,因为之前一直用jupyter notebook写python,于是就也想这样写R,但是网上很少有写如何将R和jupyter notebook关联的教程。我在翻了文档后发现很简单,三行代码就搞定了。
原创
发布博客 2018.09.17 ·
54770 阅读 ·
52 点赞 ·
25 评论 ·
135 收藏

数据预处理——归一化标准化

数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。 去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上import numpy as npimport pandas as pdimport matplotlib.pyplot as...
原创
发布博客 2018.05.08 ·
7840 阅读 ·
7 点赞 ·
1 评论 ·
35 收藏

数据特征分析技能—— 相关性检验

数据特征分析技能—— 相关性检验 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度 一般常用四种方法: - 画图判断 - pearson(皮尔逊)相关系数 - sperman(斯皮尔曼)相关系数 - Cosine similarity (余弦相关系数)import numpy as np...
原创
发布博客 2018.05.06 ·
17721 阅读 ·
5 点赞 ·
0 评论 ·
65 收藏

kaggle竞赛:泰坦尼克幸存者预测

kaggle竞赛:泰坦尼克幸存者预测——(一)import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport osimport warningswarnings.filterwarnings('ignore')%matplotlib inline...
原创
发布博客 2018.05.03 ·
4383 阅读 ·
10 点赞 ·
2 评论 ·
32 收藏

数据特征分析技能—— 帕累托分析

数据特征分析技能—— 帕累托分析 又称ABC分类库存控制法,主次因分析法,20/80定律等。 - 一般来说投入产出,努力和报酬之间并不是绝对的线性关系,总有一些关键因素起着至关重要的作用,而帕累托分析就是找到影响事务的关键因素,分清主次。 import numpy as npimport pandas as pdimport matplotlib.pyplot a...
原创
发布博客 2018.05.03 ·
3195 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏
加载更多