- 博客(145)
- 资源 (5)
- 收藏
- 关注
原创 【利用Python进行数据分析】5 - pandas入门
pandas含有使数据清洗和分析工作变得更快更简单的数据结构和操作工具。pandas经常和其它工具一同使用,如数值计算工具NumPy和SciPy,分析库statsmodels和scikit-learn,和数据可视化库matplotlib。pandas是基于NumPy数组构建的,特别是基于数组的函数和不使用for循环的数据处理。虽然pandas采用了大量的NumPy编码风格,但二者最大的不同是pa...
2020-02-25 20:22:07
1168
1
原创 【利用Python进行数据分析】3-Python的数据结构、函数和文件
一、数据结构和序列1.1、元组1.1.1、定义元组元组是一个固定长度,不可改变的Python序列对象,创建元组的最简单方式,是用逗号分隔一列值。当用复杂的表达式定义元组,最好将值放到圆括号内。tup1 = 1,2,3 #(1,2,3)tup2 = (1,2),(3,4,5),(6,7,8,9,10) #((1,2),(3,4,5),(6,7,8,9,10))用tuple可以将任意序...
2020-02-17 19:19:21
547
1
原创 【利用Python进行数据分析】2 -Python语法基础、IPython和Jupyter Notebooks
Python解释器Python是解释性语言。Python解释器同一时间只能运行一个程序的一条语句。标准的交互Python解释器可以在命令行中通过键入python命令打开。提示输入代码。要退出Python解释器返回终端,可以输入exit()或按Ctrl-D。运行Python程序只需调用Python的同时,使用一个.py文件作为它的第一个参数。假设创建了一个hello_world.py文件,可以...
2020-02-16 15:42:01
1025
1
原创 【利用Python进行数据分析】1 - python介绍、安装与设置
结构化数据结构化数据(structured data),这个术语代指了所有通用格式的数据,例如:表格型数据,其中各列可能是不同的类型(字符串、数值、日期等)。比如保存在关系型数据库中或以制表符/逗号为分隔符的文本文件中的那些数据。多维数组(矩阵)。通过关键列(对于SQL用户而言,就是主键和外键)相互联系的多个表。间隔平均或不平均的时间序列。这绝不是一个完整的列表。大部分数据集都能被...
2020-02-15 20:21:38
516
1
原创 【利用Python进行数据分析】10 数据聚合与分组计算
对数据集进行分组并对各组应用一个函数,是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,实现对数据集进行切片、切块、摘要等操作。使用一个或多个键(形式可以是函数、数组或DataFrame列名)分割pandas对象。计算分组的概述统计,比如数量、平均值或标准差,或是用户定义的函数。应用组内转换或...
2020-02-13 22:34:10
2196
1
原创 python 创建空dateframe最常见的方法
import pandasdf_data = pd.DataFrame(columns = ['列名1','列名2','列名3','列名4'])
2020-02-12 08:46:19
1251
原创 python 三种时间格式转换,datetime.datetime 、datetime.date、str 相互转换
在统计数据时候,涉及统计时间,主要是 datetime.datetime 、datetime.date、str 三种格式相互转换。一、datetime.datetime to str_timeimport datetimefrom datetime import datetime#输入:dt_datetime#输出:str_timestr_time = dt_datetime.st...
2020-02-11 22:43:32
22618
7
原创 pycharm 公司内网+合规外网安装踩坑记
坑1、pycharm内网安装,需要自己下载python编译器进行配置。坑2、合规环境下,第三方库安装是个大坑。可以在pycharm——Setting中设置接口地址,该地址和ie浏览器中设置相同。坑3、公司程序需要在生产环境下运行,对每个project可以设置一个虚拟环境,避免不同的project需要不同的第三方库。...
2020-02-10 23:05:29
1397
1
原创 python Dataframe apply()自定义函数中axis参数
缺少axis=1,会报错,提交次数错误,让你百思不得其解。df_date.apply()函数难道不是默认用于列的吗?_?df_data_dep = df_work_data[df_work_data.apply(lambda x: x['提交次数'] > 0 , axis=1)]...
2020-02-10 20:08:22
6637
1
原创 python datetime日期时间去掉 时分秒
一:场景1输入:datetime格式日期时间输出:datedate格式日期方法:datetime.datetime.date()直接转换,关键是改变日期的格式从而改变日期时间的显示。import pandas as pdimport datetimefrom datetime import datetimefrom datetime import timedeltamin_date...
2020-02-10 19:59:05
50008
2
原创 python pandas.merge()实现两个dataframe连接
merge: 合并数据集, 通过left, right确定连接字段,默认是两个数据集相同的字段参数 说明left 参与合并的左侧DataFrameright 参与合并的右侧DataFramehow 连接方式:‘inner’(默认,内连接);还有,‘outer’(全连接)、‘left’(左连接)、‘right’(右连接)on 用于连接的列名,必须同时存在于左右两个DataFrame对象中...
2020-02-09 12:18:15
8529
原创 Python Dataframe 两列相除
对应列直接相除或者采用apply函数import pandas as pddf = pd.read_csv('离线数据.csv')#新建一个Dataframedf_data = pd.DataFrame(columns=['总数','人数','平均值'])df_data[['总数','人数']] = df#1、使用apply函数df_data['平均值'] =df_data.a...
2020-02-09 12:06:25
43996
2
原创 python Dateframe显示全部列或者行
导入pandas库并设置import pandas as pd#显示Dateframe所有列(参数设置为None代表显示所有行,也可以自行设置数字)pd.set_option('display.max_columns',None)#显示Dateframe所有行pd.set_option('display.max_rows',None)#设置Dataframe数据的显示长度,默认为50...
2020-02-09 11:53:34
18311
原创 python 获取当天日期值
import time, datetimedate = datetime.date.today()报错:AttributeError: ‘method_descriptor’ object has no attribute ‘today’debug:You need do like this one (ipython output)import time, datetimefro...
2020-02-08 09:36:33
5663
原创 Anaconda Prompt 切换工作路径
Anaconda Prompt:默认路径:默认路径是你的用户名路径切换路径:Anaconda Prompt在默认路径下,无法直接cd到其他盘。只能在根目录下进行切换盘符返回根目录:使用cd …切换到上级目录...
2020-02-05 22:08:15
4713
原创 Anaconda 安装可视化库Pyecharts (Windows环境)
Anaconda Prompt快速安装出错#1、快速安装conda install Pyecharts#2、按照版本安装anaconda search -t conda pycharts报错,不能安装下载Pyecharts库到Anaconda 文件下安装步骤:下载pyecharts安装包到本地,再使用pip或者conda命令安装;pyecharts安装包下载地址将安装包p...
2020-02-05 21:57:52
4405
3
原创 python 识别不标准的project name
一、业务目标说明project 含有两个字段,分别为 project id和project nameproject id和project name理论上是一一对应关系,需要找出project id相同,project name不同的数据project name不标准主要体现在 大小写不一致,需要区分大小写;含有非法空格二、python实现import pandas as pdim...
2020-02-04 11:28:59
519
原创 Anaconda3 安装 爬虫库 selenium(windows环境)
一、Anaconda 安装selenium库#使用命令:conda或pipconda install seleniumpip install selenium用 Chrome 浏览器来测试#用 Chrome 浏览器来测试from selenium import webdriverbrowser = webdriver.Chrome()browser.get('http:/...
2020-02-04 10:59:32
8645
3
原创 python 利用df.drop_duplicates()和df.duplicated()实现查找某字段取值不标准的数据
df.drop_duplicates()DataFrame.drop_duplicates(self, subset=None, keep=‘first’, inplace=False)参数: subset : column label or sequence of labels, optionalOnly consider certain columns for identifyi...
2020-01-12 20:26:25
6946
1
原创 python利用np.where()实现不同条件下的数据处理或者计算
numpy.where (condition[, x, y])用法np.where(condition, x, y)满足条件(condition),输出x,不满足输出y。np.where([[True,False], [True,True]], # 官网上的例子 [[1,2], [3,4]], [[9,8], [7,6]])...
2020-01-08 22:32:26
2392
1
原创 python dataframe时间类型数据预处理以及周期统计
时间类型数据预处理:0、时间格式转换dateframe 日期数据,字符型转换成日期格式:pd.to_datetime(dateframe_timedate,format='%Y/%m/%d %H:%M:%S')常见的报错检查点:格式不匹配,检查原始数据中的日期格式,‘2019/01/01 00:00:00’只能转换成format=’%Y/%m/%d %H:%M:%S’。同理,‘2...
2020-01-08 22:10:37
6196
2
原创 python dataframe计算两个日期之间天数 两种思路(推荐思路2)
思路1:1、字符串转日期格式,对于dataframe格式的日期数据datadf[‘A’]可以采用 pd.to_dataframe(datadf[‘A’])2、对于日期格式的两个数据date1、date2,可以直接采用(date2 - date1).days 得到两个日期之间的天数3、对于dateframe中的日期series,借助 lambda实现.栗子:import numpy a...
2020-01-06 23:29:57
11841
2
原创 python 实现描述性统计、频数分布图、正态分布检验、概率密度曲线拟合
python实现描述性统计、频数分布图、正态分布检验、概率密度曲线拟合from scipy.stats import chi2 # 卡方分布from scipy.stats import norm # 正态分布from scipy.stats import t # t分布from scip...
2020-01-03 21:21:39
5625
1
原创 python 利用dataframe实现连接
merge列连接result_dataframe = pd.merge(left_dataframe, right_dataframe, how='outer', on=['key1', 'key2'])join列连接result_dataframe = left_dataframe.join(right_dataframe, on=['key1', 'key2'], how='inne...
2020-01-02 22:56:24
3418
1
原创 CDA Level 1: Part 1.3 推断性系统学习
推断性系统学习正态分布:三大分布卡方分布:特点:用途:1、单样本方差检验2、离散变量独立性检验 (列联表)3、拟合优度检验(列联表)t分布:特点:用途:1、单样本均值检验(小样本n<30,总体正态,方差未知,估计总体均值)2、F分布:特点:用途:1、双样本方差检验2、离差均方和检验中心极限定理切比雪夫不等式...
2020-01-02 21:52:06
625
2
原创 CDA Level1 考试心得
2019-12-28 CDA Level 1考试总结考试题型单选题(50’=50*1’)多选题情景题(4*(单选+多选))考试内容单选题:涉及内容为cda考纲中知识点,分布较为均匀多选题:涉及内容为cda考纲中知识点,分布较为均匀情景题:SPSS中结果分析、SQL语句、多元回归理解(线性系数、回归系数检验)、逻辑回归考试体会题目不难,题目数量固定,时间足够答题,涉及的...
2019-12-30 17:05:48
10650
4
原创 CDA Level 1 PART1:数据分析概述 描述性统计分析
数据分析概述 描述性统计分析CRISP-DM方法论 SEMMA方法集中趋势与离散趋势指标
2019-12-30 16:47:50
1274
2
原创 CDA Level1 PART4:时间序列
时间序列从历史的数据中找到必然性从而得到未来的确定性的部分。时间分解(加法、乘法、混合模型)ARIMA(n,m)ARMA(p,q) p步偏相关系数截尾,q步自相关系数截尾ARIMA(n,m)非平稳选用差分方法...
2019-12-22 20:01:51
635
1
原创 CDA Level1 PART4.4:分类分析(逻辑回归)
分类分析(逻辑回归)**逻辑回归是用线性方式表示ln(ods)自变量和应变量都可以是分类变量,两个分类变量之间的检验可以选择卡方检验,卡方值是预测值和期望值之间的相对距离,卡方值越小越好筛选自变量:似然比检验模型输出是一个概率值(相对值,没有实际含义,单可以进行排序),人为选择概率阈值进行分类**...
2019-12-22 19:40:24
522
1
原创 CDA Level 1 PART4.5 聚类分析
聚类分析聚类分析的本质是无监督分类,将相似度较高的作为一类相似度一般选择距离进行度量层次聚类,无论是从n类聚成1类,还是从1类聚成n类,最终形成一个分类树,在分类树的基础上决定分成多少类(起始无需确定分成多少类)K-means聚类(快速聚类)首先确定分成多少类(类的数量开始必须给出)...
2019-12-22 16:39:33
421
原创 CDA Level1 PART4.2:因子分析
因子分析因子分析本质是将原始变量抽象成公共因子+随机因子(特殊因子),目标是找到公共因子,特殊因子不需要寻找因子分析从原始变量中提取出公共因子,需要计算其系数:因子载荷矩阵,可以采用主成分的方法计算。计算用字载荷矩阵出现0.5这样的数值,不便于解释公共因子的含义,需要进一步进行因子旋转,使得系数两级分化,表示变量突出,便于解释各个因子的业务含义。...
2019-12-22 16:18:02
856
原创 CDA Level1 PART4.1:主成分分析
CDA Level1 PART4.1:主成分分析本质降维主成分分析:用原始变量构造主成分,第一个主成分的方差最大,代表的信息越多。特征向量的方向表示了拉伸的方向。因子分析:用原始变量中找出(抽象出)隐性的公共因子,选择比较重要的公共因子表示变量,实现降维。...
2019-12-22 15:58:37
783
原创 CDA_Level1_思维导图
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...
2019-12-22 11:06:00
1865
10
转载 R语言︱处理缺失数据&&异常值检验、离群点分析、异常值处理
在数据挖掘的过程中,数据预处理占到了整个过程的60%脏数据:指一般不符合要求,以及不能直接进行相应分析的数据脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#、¥、*)的数据数据清洗:删除原始数据集中的无关数据、重复数据、平滑噪声数据、处理缺失值、异常值等缺失值处理:删除记录、数据插补和不处理主要用到VIM和mice包install.packages(c(“VIM”,...
2019-11-04 00:04:31
5207
原创 OLAP 和 OLTP
数据从何而来?企业日常的各个环节都会产生数据,一个企业从小到大的过程中,最初建设IT系统的时刻是一个分隔点。在此之前,数据零散分布在邮箱、发票、单据、APP等各种地方。零散的数据分布企业规模达到一定程度时则必须要建设IT系统,此时,数据开始在各种系统(ERP、CRM、MES等)中积累。IT系统中的数据分布数据价值随着其体量不断的累积也在一直增加。获取其中的知识,能够帮助企业发现问题与...
2019-10-23 22:20:05
171
数据分析数据流.zip
2020-06-02
stopwords.txt
2020-02-04
MATLAB智能算法30个案例分析
2015-06-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅