polarislove1113-CSDN博客

原创深度学习的数学基础（一）线性代数

深度学习的数学基础（一）线性代数1.1 向量向量空间向量的模向量的范数常见向量1.2 矩阵线性映射1.1 向量在线性代数中，标量（Scalar）是一个实数，而向量 (Vector) 是指 n个实数组成的有序数组，称为 n维向量。如果没有特别说明，一个 n维向量一般表示列向量，即大小为 n × 1 的矩阵。行在前，列在后，n × 1 则表示n行1列的矩阵，也就是n维向量。a=[a1a2...

2019-02-02 01:34:41 543

原创用scikit-learn掌握机器学习（三）特征提取和预处理

从分类数据中提取特征from sklearn.feature_extraction import DictVectorizeronehot_encoder = DictVectorizer() #字典转onehot用DictVectorizer()instances = [{'city': 'New York'},{'city': 'San Francisco'},{'city': '...

2018-05-21 19:00:03 666

原创用scikit-learn掌握机器学习（二）线性回归

通过cost function评估一个模型的拟合度通过模型的预测y值和训练集中x的标签值的差距被称为训练误差或残差值通过模型的预测y值和测试集中的值的差距被称为测试误差那我们的目标就是让这个误差最小。我们通过让残差平方和最小，来打成这个目标。 yiyiy_i是观测值 f(xi)f(xi)f(x_i)是预测值，公式如下 SSres=∑i=1n(yi−f(xi))2SSres=∑i=1...

2018-05-17 18:26:40 456

原创用scikit-learn掌握机器学习（一）线性回归

一、简单线性回归一般来讲回归是通过连续数据用来预测的，除了逻辑回归，那是个分类算法。线性回归是个监督算法，通过已有的样本和观测值（标签）构成训练数据，然后通过训练模型，来预测以后那些没有标签的样本数据。简单线性回归就是说样本值和标签之间的关系是线性的。我们先讲一个单样本参数和单一标签的例子。一个通过披萨尺寸预测披萨价格的例子。尺寸（inch）价格（dollar）...

2018-05-04 18:34:34 471

原创用python学概率与统计（第十二章）拟合度检验和独立性检验

十二章

2017-12-30 01:10:29 3069

原创用python学概率与统计（第十一章）关于总体方差的推断

关于总体方差的推断

2017-12-29 15:00:07 420

原创用python学概率与统计（第九章）假设检验（第十章）

假设检验我们首先对总体参数提出一个原假设（null hypothesis），记做H0H_0, 定义另一个与原假设完全相反的备择假设（alternative hypothesis）记做HaH_a。作为普遍情况，研究的假设设为备择假设。如果原假设被拒绝，则备择假设为真。（无论是>=,<=,=，等号总是出现在原假设中）9.2 第一类错误和第二类错误第一类错误：H0为真，但是我们拒绝了H0 第二类错

2017-12-28 22:40:28 1403

原创用python学概率与统计（第七章）抽样分布 (第八章) 区间估计

7.4抽样分布任意一个样本统计量的概率分布被称为该统计量的抽样分布、 x¯\overline x 的数学期望等于从总体中抽取样本的总体均值 E(x¯)=μ E(\overline x) = \mu x¯\overline x 的标准差有限总体σx¯=N−nN−1−−−−−−√(σn√) \sigma_\overline x= \sqrt {\frac{N-n}{N-1}}(\frac{\s

2017-12-28 14:47:16 2319

原创用python学概率与统计（第五章）离散概率分布（第六章）连续概率分布

离散概率分布期望：E(x)=μ=∑xf(x)E(x) = \mu= \sum{xf(x)} 数据期望就是可取值的加权平均数，权重等于概率方差：Var(x)=σ2=∑(x−μ)2f(x)Var(x) = \sigma^2= \sum{(x-\mu)^2f(x)} 方差是随机变量和其均值的离差平方的加权平均数，权重等于概率标准差是σ\sigma5.4二项概率分布二项概率满足下列几个条件 1

2017-12-27 23:15:21 1365

原创用python学概率与统计（第四章）概率论简述

组合排列组合：CNn=(Nn)=N!n!(N−n)!C^N_n= (^N_n) = \frac{N!}{n!(N-n)!} 排列：PNn=n！(Nn)=N!(N−n)!P^N_n= n！(^N_n) = \frac{N!}{(N-n)!}import itertoolsIn [61]:r = itertools.combinations(range(4),3)In [62]:rOut[62]

2017-12-23 18:47:53 1282

原创用python学概率与统计（第三章）描述性统计:数值方法

3.2################## ********************************count 非 NA 值的数量 describe 针对 Series 或 DF 的列计算汇总统计 min , max 最小值和最大值 argmin , argmax 最小值和最大值的索引位置（整数） idxmin , idxmax 最小值和最大值的索引值 quan

2017-12-21 23:55:32 2878 1

原创用python学概率与统计（第二章）描述性统计:表格法，图形法

频数分布2.1汇总定性数据柱状图import numpy as npimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as plt%pylabdf = pd.read_csv("E:\\data\\SoftDrink.csv")dfdf.describe() grouped_

2017-12-21 02:27:02 1055

原创【Python数据分析与展示】（八）数据合并、规整化

数据库风格的dataframe合并 mergedf1 = DataFrame({'key':['b','b','a','c','a','a','b'],"data1":range(7)})df2 = DataFrame({'key':['a','b','d'],"data2":range(3)})df1# data1 key0 0 b1 1 b2 2 a

2017-12-19 21:56:22 320

原创【Python数据分析与展示】（七）数据加载存储和文件格式

读写文本格式的数据函数说明 read_csv 默认分隔符为逗号 read_table 默认分隔符为\t read_fwf 读取等宽列格式文件默认无分隔符 read_clipboard 读取剪贴板中的文件指定列名 pd.read_csv(“文件路径.csv”, sep=”, name= []) 多层次索引 pd.read_csv(“文件路径.csv”

2017-12-19 16:31:00 238

原创【Python数据分析与展示】（六）处理缺失数据，层次化索引

处理缺失数据pandas用浮点值NaN来表示缺失数据，它只是一个易于被检测出来的标识方法说明 dropna 过滤缺失数据，可以用阈值调节容忍度 fillna 用指定值或插值方法填充缺失数据 isnull 返回布尔值标识哪些是NaN notnull isnull的反义Examples df = pd.DataFrame([[np.

2017-12-19 13:56:15 292

原创 python科学计算库Sympy指南

SymPy是Python的数学符号计算库，用它可以进行数学公式的符号推导安装不介绍了官方文档这里还是建议使用anacondafrom sympy import *init_printing(use_unicode=True)x,y = symbols('x y') #用符号代表变量，多个变量可以空格，可以逗号隔开。expr = x + 2*yexpanded_expr = expa

2017-12-18 23:08:14 10019

原创【Python数据分析与展示】（五）pandas库数据分析

数据的排序两种方法：根据索引进行排序 .sort_index(axis = 0,ascending = True) .sort_value() 根据指定轴上的数据进行排序对于Series .sort_value(axis = 0,ascending = True) 对于DataFrame .sort_value(by,axis = 0,ascending = True)b = DataFr

2017-12-13 17:27:21 448

原创【Python数据分析与展示】（四）pandas库基本操作

SeriesSeries是由一组数据和数据的索引构成import numpy as npimport pandas as pda = pd.Series ([9,8,7,6],index = ['a','b','c','d']) #如果index处于属性的第二位，可以省略“index =”#a 9 b 8 c 7 d 6dtype: int64a = pd.S

2017-12-13 04:23:23 434

原创【Python数据分析与展示】（三）matplotlib库pyplot

简单例子：import matplotlib.pyplot as plt%pylabplt.plot([1,44,5,6])plt.ylabel("abc")plt.savefig("test",dpi = 600) #png文件plt.plot([1,2,3,4],[1,4,5,6])plt.ylabel("grade")plt.axis([-1,6,0,10])# [xmin, xm

2017-12-12 03:09:08 530

原创【Python数据分析与展示】（二）NUMPY数据存取与函数

numpy存储文件np.savetxt(frame,array,,fmt=’%.18e’,delimiter = None)a = np.arange(100).reshape(5,20)np.savetxt("a.csv",a,fmt = '%d',delimiter = ",")numpy读取文件np.loadtxt(frame,dtype =np.float,delimiter = None

2017-12-12 01:35:42 333

原创【Python数据分析与展示】（一）numpy基础

ndarrayimport numpy as npa = np.array([[1,2,3,4,5], [9,8,7,6,5]])print(a)轴（axis）：数据的维度秩（rank）：轴的数量ndarray对象的属性属性说明 .ndim 秩，即轴的数量，或维度的数量 .shape ndarray对象的尺度，对于矩阵表示n行m列

2017-12-11 16:29:17 349

原创 Ipyhone 常见魔术命令

常用命令说明 %magic 显示所有魔术命令 %hist 显示ipython输入的历史命令信息 %pdb 异常发生后自动进入调试器 %reset 删除当前命名空间中的全部变量或名称 %who 显示当前命名空间中已经定义的变量 %time statement 代码运行时间 %timeit statement 多次运行，给出代码平均运行时间

2017-12-11 10:50:46 762

原创 Python网络爬虫与信息提取(三) 正则表达式

正则表达式正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。 compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。正则表达式由字符和操作符构成正则表达式常用操作符操作符说明实例 . 表示任何单个字符 [] 字符集，对单个字符给出取值范围 [a

2017-12-10 01:04:56 4388

原创 Python网络爬虫与信息提取(二) BeautifulSoup库

BeautifulSoup 库入门BeautifulSoup库主要作用是能对html xml格式进行解析，并且提供解析import requestsfrom bs4 import BeautifulSoup as bsr = requests.get ("https://www.python123.io/ws/demo.html")r.textdemo =r.textsoup = bs(d

2017-12-09 22:35:37 707

原创 Python网络爬虫与信息提取(一) requests库

Request库入门import requests #引入requests库 r = requests.get("http://www.baidu.com") #构造一个向服务器请求资源的Request对象，r是返回一个包含服务器资源的Response对象r.status_coder.text 属性说明 r.statuscode 返回http请求状态码，200表示成功，404表

2017-12-09 01:42:36 688

原创精通python网络爬虫学习笔记（1）

精通python网络爬虫学习笔记（1）第一章爬虫的组成：控制节点，爬虫节点，资源库网络爬虫中可以有多个控制节点，多个爬虫节点，控制节点之间可以互相通信，控制节点和其下的爬虫节点之间也可以互相通信，同一控制节点其下的爬虫节点之间也可以互相通信。控制节点主要负责：根据url地址分配线程，调用爬虫爬虫节点负责: 具体的爬取工作爬行后，爬行结果存储到资源库。第三章开始进入Python学习

2017-12-08 20:58:19 421

原创第一篇博客学习markdown

开始学习用markdown编辑器写博客，这也是第一篇博客就在这篇文章中写点东西，顺便熟悉下markdown的简单语法为什么要写博客，几个原因吧加粗是Ctrl + B 两个* 因为前后都有*才是粗体或者斜体所以不用backslash转义为什么要用markdown写博客斜体是Ctrl + I 一个*markdown比较适合代码吧（有序排列是Ctrl + O）操作简单？支持html

2017-11-23 12:25:47 309

polarislove36的博客