自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(33)
  • 收藏
  • 关注

原创 Python基础--文件操作(OS)

一、操作方式1)读注意:光标会以文本开始读取1、以文本读取读1、绝对路径读取f = open('/home/pyrookie/temp.txt',mode='r',encoding='utf-8')content = f.read()print(content)f.close()2、相对路径读取f2 = open('temp.py',mode='r',...

2018-08-27 21:38:36 585

原创 Python基础--集合

集合集合是可变的数据类型 元素必须是不可变的数据类型 特征: 无序、不重复一、创建1)正确方式set1 = set({1,2,3,4})print(set1)2)错误方式set2 = {1,2,3,[2,3],{'name':'alex'}} # 报错二、增加1)set.add(要添加的元素)注意这个添加的元素必须是不可变数据类型s...

2018-08-23 17:31:01 309

原创 Python基础--深浅拷贝

python中的copy一、变量传递l1 = [1,2,3]l2 = l1l1.append('a')print(l1,id(l1))print(l2,id(l2))[1, 2, 3, 'a'] 139798038887048[1, 2, 3, 'a'] 139798038887048二、变量赋值传递1) 传递前改变子级l1 = [1,[2],3,4,5]...

2018-08-23 16:57:37 424

原创 数据分析--模型选择流程

分析小麦数据时的模型选择一、模型总结1)分类问题1、knn缺点: 时间复杂度 空间复杂度高 优点: 实现简单,易于理解 总结:适合样本最小,分类边界不明显的情况2、逻辑回归优点: 分类时计算量非常小,速度很快,存储资源低 缺点: 容易欠拟合,准确度不高 总结:适合样本量大的情况3、决策树优点: 对于有明确业务逻辑的数据分类效果好,分类效果可...

2018-08-22 22:32:17 4476 1

原创 数据分析--时间问题与降维

数据降维降低预测时间使用自带的数字模型,查看使用KNN算法和逻辑回归算法的分类时间,并降低数据维度缩短预测时间一般处理速度问题的几个方面 1. 数据量太大 (抽样) 2. 样本特征太多 (降维) 3. 样本的量级太大(归一化) 4. 算法本身的问题 一、查看KNN与lgc(逻辑回归)处理分类问题的时间这里使用sklean自带的数据–图片数据类进行分类1)导包...

2018-08-22 21:31:06 2132

原创 数据处理--图片压缩

一、压缩图片原理压缩图片 颜色是256(0-255)种颜色 从中抽取16(4*4)种颜色 然后将图片上的所有颜色向这16种颜色上去靠 在保存的时候会将这16中颜色抽取出来 保存时图片就会被压缩。1)2)3)二、加载图片1)加载图片img = plt.imread('./data/bird.png') # 加载图片 转换成多维数组im...

2018-08-22 19:07:03 548

原创 数据处理--图片像素点聚类

一、压缩图片原理压缩图片 颜色是256(0-255)种颜色 从中抽取16(4*4)种颜色 然后将图片上的所有颜色向这16种颜色上去靠 在保存的时候会将这16中颜色抽取出来 保存时图片就会被压缩。1)2)3)二、加载图片1)加载图片img = plt.imread('./data/bird.png') # 加载图片 转换成多维数组imgarr...

2018-08-22 19:00:24 7295 1

原创 K均值算法(K-means)聚类

1. K-means算法 2. KMeans(n_clusters=3) 3. K-means的中心点 4. centers = kmeans.cluster_centers_ 5. 坐标轴中文显示问题 6. 坐标轴字体、负号还原问题 7. 3D绘图 8. from mpl_toolkits.mplot3d import Axes3D 9. 建立坐标系 10. ax = plt.subplot(projection='3d') 8. make_blobs生成有中心点的数据

2018-08-21 22:12:15 93758 11

原创 Python高级--支持向量机SVM

一、支持向量机原理1)支持向量机基本概念Support Vector Machine支持向量机,其含义是通过支持向量运算的分类器。 其中“机”的意思是机器,可以理解为分类器。 那么什么是支持向量呢?在求解的过程中,会发现只根据部分数据就可以确定分类器,这些数据称为支持向量。见下图,在一个二维环境中,其中点R,S,G点和其它靠近中间黑线的点可以看作为支持向量,它们可以决定分类器,也...

2018-08-21 20:57:49 1621

原创 Python基础--字典的操作

一、数据类型划分1)不可变数据类型不可变数据类型又称不可哈希 - 字符串 - 布尔值 - 数字 - 元祖 2)可变数据类型可变数据类型又称可哈希 - 列表 - 字典 - 集合 字典的key必须是不可变数据类型dic = { 'name':['皮皮江','pipijiang'], 'py':['num',{ ...

2018-08-21 17:44:08 391

原创 Python高级--朴素贝叶斯

1、2、3、4、5、6、7、一、贝叶斯1)贝叶斯原理 公式中,事件Bi的概率为P(Bi),事件Bi已发生条件下事件A的概率为P(A│Bi),事件A发生条件下事件Bi的概率为P(Bi│A)。2)贝叶斯解决的问题实例一: 我们想预测北京的冬天某一天下雪,当天堵车的概率是多少P(B|A) A是下雪P(A) = 0.1 B是堵...

2018-08-21 09:07:21 1815

原创 Python高级--决策树

1、2、3、4、5、6、7、一、决策树原理1)我们经常使用决策树处理分类问题决策树分类的思想类似于找对象。现想象一个女孩的母亲要给这个女孩介绍男朋友,于是有了下面的对话: 女儿:多大年纪了? 母亲:26。 女儿:长的帅不帅? 母亲:挺帅的。 女儿:收入高不? 母亲:不算很高,中等情况。 女儿:是公...

2018-08-20 21:09:33 1342 1

原创 Python基础--列表与元祖

一、列表的增删查改1)增加列表的增加操作不会返回一个新的列表,只修改原来的列表。1、追加 L.append(object) -> None功能:将传入的对象追加到列表最后2、插入 L.insert(index, object)功能:将传入的对象插入到相应的索引位置3、迭代添加 L.extend(iterable) -> None功能:将可迭代对象迭代...

2018-08-20 16:47:55 322

原创 Python高级--逻辑回归、KNN回归比较

逻辑斯蒂回归、sklean自带数字图片load_digits()、产生数据集make_blobs坐标扁平化、取画布上的所有点、指定散点图点的颜色

2018-08-18 15:00:42 5514

原创 Python高级--boston房价预测

一、获取数据1)导入数据from sklearn.linear_model import LinearRegression,Lasso,Ridgefrom sklearn.datasets import load_bostonimport numpy as npimport pandas as pdfrom pandas import Series,DataFrameimp...

2018-08-18 12:02:35 12969 2

原创 Python--线性回归人脸预测

需求:LAPD的SWAT在处理暴力犯罪的过程中发现,抢匪在行凶过程中经常会蒙面,但是一般还是会把上半张脸露出来。我们通过分析知道,下半张脸和上半张脸实际上是有联系的。那么能否通过人工智能,把蒙面劫匪的下半张脸预测出来,然后对其进行通缉呢?一、数据获取1)导入需要的包from sklearn.datasets import fetch_olivetti_facesfrom sklear...

2018-08-18 11:34:59 886

原创 Python高级--线性回归、岭回归(岭际线)、lasso回归

一、原理1)原理图解 “` 通俗解释线性回归:画一条线,将图上的点都尽量多的压住原理: 最小二乘法(算法) 回归曲线: 通过最小二乘法画出回归曲线。 f(x) = wx + b 这个就是一条线的公式在画图中, 将w称为斜率,b称为偏移(截距) 这里 w(weight)权重 称为b(bias)称为偏差根据已有的点,通过调整w和b的值,所有点到回归曲线的距离...

2018-08-18 10:10:29 9822 2

原创 K近邻值(KNN)小麦种类预测 预测年收入是否大于50K美元 癌症预测

知识点梳理:小麦种类预测: 打乱分离集和结果集,源码办法 年收入预测: 样本字符串转数字 癌症预测: 打乱分离集和结果集自带函数,样本数据归一化一、小麦种类预测1)处理数据1、导入数据samples = pd.read_table('./data/wheats.tsv',header=None)samplessamples.shape(210, 8...

2018-08-16 20:55:54 2784 3

原创 ocr 光学字符识别(Optical Character Recognition)识别数字

识别分析: 图片是二维的数组 图片原始数据plt.imread('./digits/0/0_1.bmp')array([[255, 255, 255, 255], [255, 255, 255, 255]], dtype=uint8) 可以看出是一个二维数据, 但根据实际情况每行样本的列并不是样本的多个特征根据实际情况,每个图...

2018-08-16 11:00:29 1755 1

原创 Python高级--K-近邻算法(KNN)

K nearest neighbour K-近邻算法采用测量不同特征值之间的距离方法进行分类。 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:时间复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。一、K-近邻算法(KNN)举例1)工作原理存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数...

2018-08-16 09:32:52 1145 1

原创 Python高级--城市气候与海洋距离关系的研究

城市气候与海洋距离关系的研究一、导入数据数据可点击下载ferrara1 = pd.read_csv('./data/ferrara_150715.csv')ferrara2 = pd.read_csv('./data/ferrara_250715.csv')ferrara3 = pd.read_csv('./data/ferrara_270615.csv')ferrara = p...

2018-08-14 21:00:58 1942

原创 Python高级--matplotlib画图

Matplotlib官方文档一、Matplotlib基础下面的测试数据下载 Matplotlib中的基本图表包括的元素1) x轴和y轴 axis水平和垂直的轴线2)轴标签 axisLabel水平和垂直的轴标签3)x轴和y轴刻度 tick刻度标示坐标轴的分隔,包括最小刻度和最大刻度4)x轴和y轴刻度标签 tick label表示特定坐标轴的值5)绘图区域(...

2018-08-14 18:51:23 8092

原创 Python高级--Pandas读写数据与表格

一、使用Pandas读取数据1、使用read_csv和read_table读取1)pd.read_csv(filepath_or_buffer,sep=’,’ ,header=’infer’)'''sep: 制定哪个符号作为分割符(默认是 “ ,”)'''一)直接读取数据pd.read_csv('./data/type_comma') a b c ...

2018-08-13 19:57:44 7146

原创 Python高级--数据分析(pandas + matplotlib 绘图)

五、matplotlib 库一个用来绘图的库 import matplotlib.pyplot as plt1)plt.imread(“图片路径”)功能: 将图片加载后返回一个维数组>>> jin = plt.imread("./jin.png")>>> jinarray([[[0.24313726, 0.243

2018-08-11 16:38:36 18006 2

原创 Python高级--scipy图片处理+积分

导包import numpy as npimport matplotlib.pyplot as pltimport scipy.misc as misc # 图片处理库 miscellaneous 乱七八糟一、黑白图片和彩色图片的区别RGB图片 一般彩色图片由 plt.imread() 加载出来后是一个三维数组,一般最外维度是图片像素的行,中间维度是图片像素...

2018-08-11 13:55:10 2393

原创 python高级--美国人口分析(Numpy,Pandas)

下面所用到的数据(可下载) 可点击下载 所用数据文件 state-abbrevs.csv state-areas.csv state-population.csv要求 1、文件导入并查看数据样本操作 1、导入csv文件>>> df_abbr = pd.read_csv('./data/state-abbrevs.csv')&gt...

2018-08-09 16:05:54 3487 3

原创 python高级--数据分析(Pandas库)

数据分析三剑客:NumPy Pandas MatplotlibPandas 库一、SeriesSeries是一种类似于一维数组的对象由两部分组成 · index:相关的所居索引标签 · values:一组数据(ndarray类型)1、创建Series(data=None,index=None,dtype=None, name=None, copy=False, fa...

2018-08-09 08:19:37 1229 1

原创 python高级--数据分析(NumPy)

Numeric Python库文档地址 : NumPy参考import  numpy as np创建ndarray(多维数组)1. 使用np.array()创建多维数组#传入一个列表即可创建一个多维数组#注意: 内部内容的数据类型是相同的&a

2018-08-07 15:27:42 569

原创 python高级--数据处理(jupyter安装及基本使用)

数据分析环境配置主要软件及插件Anaconda安装 下载地址安装注意事项安装过程中注意 这个可以跳过 jupyter- 相当于Linux中的ipython模式转换 (在非输入模式下 ) 按键 功能 m 转换为Markdown文档 y 转换为代码模式基本操作 (在非输入模式下 ) 按...

2018-08-06 22:07:50 597

原创 python基础--字符串处理

字符串相关处理字符串拼接temp1 = "我是"temp2 = "皮皮江"temp = temp1 + temp2print(temp)我是皮皮江重复字符>>> 'hello' * 3'hellohellohello'字符串格式化%格式化 %s : str %d : int %f : float

2018-08-06 21:20:02 229

原创 python基础--与数值相关的函数

数学函数模块导入import math #(导入数学模块)from math import * #(不推荐这种方式导入)from math import sqrt, pow #(需要哪些导入哪些)使用math模块#向上取整 math.ceil>>> math.ceil(15.19872684)16>>> math.ceil...

2018-08-06 20:32:18 267

原创 python基础之第一个python脚本

文件创建、运行、注释、print()、数据类型、变量、运算符

2018-08-06 17:51:58 1756

转载 CSDN-markdown编辑器

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...

2018-08-06 13:50:32 124

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除