- 博客(14)
- 收藏
- 关注
原创 python-pandas基础
from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" #pandas基础 import pandas as pd from pandas import Series, DataFrame import numpy as np #S...
2020-02-21 11:47:47
261
原创 sklearn决策树--泰坦尼克号幸存者预测
决策树的原理即利用不同的最优特征选择方法,优先选择样本纯度最高的特征来进行样本分类。其中: 使用信息增益的决策树算法为 ID3; 使用信息增益率的决策树算法为 C4.5; 使用Gini指数的决策树算法为 CART算法。 ID3算法中,信息增益(Information gain)越大,数据越纯净,越有序,自然地我们优先选取信息增益最大的特征来分类样本。样本集的信息熵(Entorpy)的值越小...
2019-12-16 01:40:44
3161
转载 scikit-learn两类决策树参数说明
原文链接:https://blog.csdn.net/qq_16000815/article/details/80954039 scikit-learn两类决策树参数说明 ''' scikit-learn中有两类决策树,它们均采用优化的CART决策树算法。 ''' from sklearn.tree import DecisionTreeRegressor ''' 回归决策树 ''' Decisi...
2019-12-16 00:46:05
552
原创 scikit-learn支持向量机(SVM)--手写数字识别
#手写数字识别 #scikit-learn库 from sklearn import datasets digits = datasets.load_digits() #加载scikit-learn自带的手写数字识别图片数据集 from matplotlib import pyplot as plt #将数据所代表的的图片显示出来 images_and_labels = list(z...
2019-12-11 17:34:25
1558
原创 机器学习应用开发典型步骤
一、数据清洗 统一同类数据的单位,去掉重复数据及噪声数据。使得数据具备结构化特征,方便作为机器学习算法的输入。 二、特征选择 从所有的特征值中,逐个分析选择合适的特征集合作为输入。 方法:1、人工选择;2、PCA算法 三、模型选择 根据问题领域、数据量大小、训练时长、模型准确度等多方面因素决定模型的选择。 四、模型训练和测试 将数据集分为训练集、测试集、验证集(交叉验证集)来进行模型训练。 五、模...
2019-12-11 10:36:53
528
原创 Markdown格式设置
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 欢迎使用Ma...
2019-12-11 09:53:32
642
原创 python数据分析之-pandas基础
from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = "all" #pandas基础 import pandas as pd from pandas import Series, DataFrame import numpy as np #S...
2019-11-28 00:48:07
318
原创 python数据分析之Numpy基础
好久不看,基础都忘记了,再复习一遍! #numpy练习 import numpy as np #生成随机数组 data = np.random.randn(2,3) data array([[-0.11086926, 1.41892946, 1.28374622], [ 0.92468719, -0.09997067, 0.21467277]]) #数组大小 data...
2019-11-26 16:36:00
435
原创 房价预测--利用Python进行数据分析
原文链接:https://www.kaggle.com/pmarcelino/comprehensive-data-exploration-with-python/notebook 文件说明: train.csv - the training set 训练集 test.csv - the test set 测试集 data_description.txt - 每列说明 ...
2019-10-10 23:23:06
4382
转载 数据分析指标汇总
一、网页访问数据指标 IP (Internet Protocol) 独立IP 通常采用独’立IP数, 理论上指00:00-24:00内相同IP地址重复访问只被计算一次。而不同的商业统计工具,缩短去掉重复统计的时间,也是数据统计放大的一个常用套路。 (PS:在目前,尤其对企业用户群体中,一个公网独’立IP可能对应很多独’立终端,所以很多互联网公司已经放弃使用独’立IP作为统计口径了。) UV (Un...
2019-09-25 17:10:38
876
原创 机器学习笔记总结--Coursera吴恩达
网易云视频连接:https://study.163.com/course/courseMain.htm?courseId=1004570029 笔记参考:http://daniellaah.github.io/2016/Machine-Learning-Andrew-Ng-My-Notes 监督学习与无监督学习 通常我们讲,任何的机器学习(Machine Learning,简ML)算法问题都可以分...
2019-08-15 11:45:41
347
转载 神经网络浅讲
神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向--深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度学习技术。 本文以一种简单的,循序的方式讲解神经网络。适合对神经网络了解不多的同学。本文对阅读没有一定的前提要...
2019-05-14 10:40:23
360
原创 Mooc-Python语言程序设计:习题程序集
Python语言程序设计–习题程序集 自己写的代码,仅做记录使用,如有问题,欢迎指出。ヽ(✿゚▽゚)ノ 测验1: Python基本语法元素 (第1周) Hello World的条件输出 描述: 获得用户输入的一个整数,参考该整数值,打印输出"Hello World",要求:...
2019-05-13 22:19:25
7579
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅