- 博客(14)
- 资源 (5)
- 收藏
- 关注
原创 决策树scikit-learn重要参数详解
这里写目录标题决策树与SKlearn工具包参数汇总参数详解不纯度计算方法参数:criterion**sklearn提供了两种选择:**基尼系数与信息熵比较重要参数: random_state & splitterrandom_statesplitter剪枝参数:1、max_depth2、min_samples_leaf3、min_samples_split4、max_features5、m...
2020-04-28 22:26:11 3927
原创 【数据挖掘算法实现】决策树sklearn实现
决策树算法实现决策树模型介绍(什么场景使用)优点缺点决策树思维导图决策树算法实现 python(参数控制)决策树模型介绍(什么场景使用)决策树 -有监督(有y)产生的模型具有可解释性。决策树不仅可以用来构建模型也可以用来筛选变量。(决策树用一个递归的过程将数据切分成越来越小的单元格中,单元格中数据逐步得到‘净化’,在这个过程中,决策树会选择出对有知道数据挖掘任务最重要的那些变量)决策树...
2020-04-27 21:51:37 307
原创 数据挖掘 数据集网站
数据集网站sklearn自带数据集 datasetsUCI机器学习数据集sklearn自带数据集 datasetssklearn不仅有函数还有数据集,在datasets包中,例如导入datasets中iris数据集:from sklearn.datasets import load_irisUCI机器学习数据集网址:UCI Machine Learning Repositoryhtt...
2020-04-27 19:35:43 237 1
原创 数据挖掘 模型的衡量标准与建模
模型的衡量标准一、模型的衡量标准1、generating a good model准确性Accurate稳定性stable推广性general2、Ease of Use 是否好用generate a fitmeasure accuracymake predictionsswitch algorithmshare results3、Feature selectionuncorelated predi...
2020-04-27 19:20:02 920 1
原创 pandas 细节总结
pandas 细节总结1、pandas option设置2、快速统计信息和数据类型 df.describe().T 、 df.info()3、多列排序 data.sort_values()4、去重复4.1、全部列去重复 data.drop_duplicates()4.2、某一列去重复 data.drop_duplicates(subset = '列标签')5、基于其他列创建一个新列M1:添加修改列...
2020-04-22 22:49:49 1021 1
原创 pycharts 数据分析与数据可视化
pycharts 数据可视化特性pycharts库安装调用快速画图进阶Echarts 是一个由百度开源的数据可视化。而 Python 是一门富有表达力的语言,很适合用于数据处理。当数据分析遇上数据可视化时,pyecharts 诞生了。特性简洁的 API 设计,使用如丝滑般流畅,支持链式调用;囊括了 30+ 种常见图表,应有尽有;支持主流 Notebook 环境,Jupyter Note...
2020-04-19 17:23:37 1146
原创 python基础知识 查漏补缺
python基础知识 查漏补缺1、函数中的参数是形参,如果调用是不写关键字,默认按顺序把参数放进去。如果写了关键字,可以调换。函数中如果有return,才能赋值 a=func_()2、python 循环变量不需要加end,因为python代码前面的空格相当于循环体3、条件分支,条件最好互斥。否则,那个条件先满足,执行那个条件,后面条件不满足if condition1:print(‘1’)...
2020-04-19 16:48:26 386
原创 python 数据画图
python 数据画图1、matplotlib2、seaborn3、echarts前端1、matplotlibimport matplotlib.pyplot as pltmatplotlib学习:matplotlib官网链接:https://matplotlib.org/2、seabornimport seaborn as snsseaborn 学习:seanborn-galle...
2020-04-17 21:14:30 562
原创 Anaconda 常用使用技巧总结
Anaconda 常用使用技巧总结1、变量查询2、批量备注:Ctrl+/3、spyder打开.ipynk文件执行4、Prompt命令5、python安装新的第三方库1、变量查询whos #查看变量和变量信息who #查看变量2、批量备注:Ctrl+/3、spyder打开.ipynk文件执行step1-打开:Ipynk文件可以直接拖到spyder界面,右键convert to pyt...
2020-04-17 20:42:51 2552
原创 python安装新的第三方库 4种常见方式总结
python安装新的第三方库方法1:conda install pandas方法2:下载好安装包,安装 pip install xxx.zip方法3:python setup.py install方法4:pip install xxx.whl方法1:conda install pandas方法1是从anaconda云中安装,速度一言难尽。可以在prompt中下面语句,配置anaconda仓库...
2020-04-17 20:24:52 394
原创 【利用Python进行数据分析】13 - Python建模库介绍
第十三章 Python建模库介绍1、pandas与模型代码的接口2、用Patsy创建模型描述2.1、Patsy创建模型设计矩阵2.2、用Patsy公式进行数据转换2.3、分类数据和Patsy主要内容:pandas数据规整和模型拟合和评分介绍两个流行的建模工具,statsmodels和scikit-learn。1、pandas与模型代码的接口模型开发的通常工作流是使用pandas进行数据加...
2020-04-08 20:55:40 1069 1
原创 【利用Python进行数据分析】12 - pandas高级应用
第12章 pandas高级应用1、分类数据1.1、pandas处理重复值常见函数1.2、分类编码 series_str.take(values)1.3、pandas的分类类型1.4、用分类进行计算 (pd.Series(draws).groupby(bins).agg(['count', 'min', 'max']).reset_index())1.5、用分类提高性能1.6、分类方法1.7、为建模...
2020-04-07 20:34:22 304 1
原创 【利用Python进行数据分析】11 - 时间序列
这里写目录标题日期和时间数据类型及工具字符串和datetime的相互转换dateframe转字符串字符串转日期格式时间序列(time series)数据是一种重要的结构化数据形式,时间序列数据主要有以下几种:时间戳(timestamp),特定的时刻。固定时期(period),如2007年1月或2010年全年。时间间隔(interval),由起始和结束时间戳表示。时期(period)可以被...
2020-04-02 22:47:04 545 1
数据分析数据流.zip
2020-06-02
stopwords.txt
2020-02-04
MATLAB智能算法30个案例分析
2015-06-11
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人