数据分析
文章平均质量分 87
PyRookie
这个作者很懒,什么都没留下…
展开
-
数据分析--模型选择流程
分析小麦数据时的模型选择一、模型总结1)分类问题1、knn缺点: 时间复杂度 空间复杂度高 优点: 实现简单,易于理解 总结:适合样本最小,分类边界不明显的情况2、逻辑回归优点: 分类时计算量非常小,速度很快,存储资源低 缺点: 容易欠拟合,准确度不高 总结:适合样本量大的情况3、决策树优点: 对于有明确业务逻辑的数据分类效果好,分类效果可...原创 2018-08-22 22:32:17 · 4555 阅读 · 1 评论 -
数据分析--时间问题与降维
数据降维降低预测时间使用自带的数字模型,查看使用KNN算法和逻辑回归算法的分类时间,并降低数据维度缩短预测时间一般处理速度问题的几个方面 1. 数据量太大 (抽样) 2. 样本特征太多 (降维) 3. 样本的量级太大(归一化) 4. 算法本身的问题 一、查看KNN与lgc(逻辑回归)处理分类问题的时间这里使用sklean自带的数据–图片数据类进行分类1)导包...原创 2018-08-22 21:31:06 · 2261 阅读 · 0 评论 -
K近邻值(KNN)小麦种类预测 预测年收入是否大于50K美元 癌症预测
知识点梳理:小麦种类预测: 打乱分离集和结果集,源码办法 年收入预测: 样本字符串转数字 癌症预测: 打乱分离集和结果集自带函数,样本数据归一化一、小麦种类预测1)处理数据1、导入数据samples = pd.read_table('./data/wheats.tsv',header=None)samplessamples.shape(210, 8...原创 2018-08-16 20:55:54 · 2850 阅读 · 3 评论 -
ocr 光学字符识别(Optical Character Recognition)识别数字
识别分析: 图片是二维的数组 图片原始数据plt.imread('./digits/0/0_1.bmp')array([[255, 255, 255, 255], [255, 255, 255, 255]], dtype=uint8) 可以看出是一个二维数据, 但根据实际情况每行样本的列并不是样本的多个特征根据实际情况,每个图...原创 2018-08-16 11:00:29 · 1804 阅读 · 1 评论 -
Python高级--K-近邻算法(KNN)
K nearest neighbour K-近邻算法采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:时间复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。一、K-近邻算法(KNN)举例1)工作原理存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数...原创 2018-08-16 09:32:52 · 1181 阅读 · 1 评论 -
Python高级--Pandas读写数据与表格
一、使用Pandas读取数据1、使用read_csv和read_table读取1)pd.read_csv(filepath_or_buffer,sep=’,’ ,header=’infer’)'''sep: 制定哪个符号作为分割符(默认是 “ ,”)'''一)直接读取数据pd.read_csv('./data/type_comma') a b c ...原创 2018-08-13 19:57:44 · 7291 阅读 · 0 评论 -
Python高级--数据分析(pandas + matplotlib 绘图)
五、matplotlib 库一个用来绘图的库 import matplotlib.pyplot as plt1)plt.imread(“图片路径”)功能: 将图片加载后返回一个维数组>>> jin = plt.imread("./jin.png")>>> jinarray([[[0.24313726, 0.243原创 2018-08-11 16:38:36 · 18496 阅读 · 2 评论 -
Python高级--城市气候与海洋距离关系的研究
城市气候与海洋距离关系的研究一、导入数据数据可点击下载ferrara1 = pd.read_csv('./data/ferrara_150715.csv')ferrara2 = pd.read_csv('./data/ferrara_250715.csv')ferrara3 = pd.read_csv('./data/ferrara_270615.csv')ferrara = p...原创 2018-08-14 21:00:58 · 2013 阅读 · 1 评论 -
Python高级--scipy图片处理+积分
导包import numpy as npimport matplotlib.pyplot as pltimport scipy.misc as misc # 图片处理库 miscellaneous 乱七八糟一、黑白图片和彩色图片的区别RGB图片 一般彩色图片由 plt.imread() 加载出来后是一个三维数组,一般最外维度是图片像素的行,中间维度是图片像素...原创 2018-08-11 13:55:10 · 2462 阅读 · 0 评论 -
Python高级--matplotlib画图
Matplotlib官方文档一、Matplotlib基础下面的测试数据下载 Matplotlib中的基本图表包括的元素1) x轴和y轴 axis水平和垂直的轴线2)轴标签 axisLabel水平和垂直的轴标签3)x轴和y轴刻度 tick刻度标示坐标轴的分隔,包括最小刻度和最大刻度4)x轴和y轴刻度标签 tick label表示特定坐标轴的值5)绘图区域(...原创 2018-08-14 18:51:23 · 8163 阅读 · 0 评论 -
Python高级--决策树
1、2、3、4、5、6、7、一、决策树原理1)我们经常使用决策树处理分类问题决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公...原创 2018-08-20 21:09:33 · 1421 阅读 · 1 评论