自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

haoen110的博客

分享学习经验心得,多多交流共同进步哦!

  • 博客(46)
  • 收藏
  • 关注

原创 重采样方法 (Resampling Methods) (CV, Bootstrap)

文章目录IntroductionCross-ValidationThe Validation Set ApproachDrawbacksLeave-One-Out Cross-ValidationIn Linear RegressionDrawbacksK-fold Cross-ValidationBootstrapStepsEstimate of S.E.Estimate of C.I.Boot...

2020-01-19 15:08:46 6217

原创 搭建数据科学虚拟机(DSVM)远程玩转数据(远程使用ipad来写Python)

搭建数据科学虚拟机(DSVM)远程玩转数据大家有没有想过,如果有一天我可以用ipad来编程就好了。或者总是抱怨自己的电脑跑程序跑得慢。今天!我就来给大家分享一下利用Azure品台的云端服务器来搭建数据科学虚拟机(DSVM),让我们只要有一个浏览器,不论在手机上、平板上,还是经过多少个世纪的电脑上,都可以开开心心地享受数据科学带来的乐趣。请大家参考我的上一期,首先成功拥有Azure使用权。ht...

2019-10-05 22:36:44 2027 3

原创 注册学生Azure

注册学生Azure账号Azure是微软推出的云计算服务,在你使用 Internet(“云”)通过 Azure 等提供程序对服务器、存储、网络和软件等计算服务进行访问时,将同步进行云计算。例如,现在大多数人都是联机存储个人文档和照片,而不是存储在个人电脑的硬盘上:这就是云计算。Azure 等云计算平台往往比本地服务器更便宜、更安全、更可靠以及更灵活。使用云,几乎不会发生因维护、盗窃或损坏而导致的...

2019-10-05 17:48:22 8290 5

原创 梯度下降 Python

Gradient DescentToday, I’m going to try this method to solve a linear regression problem.Function can be written as:h(θ)=θ0+θ1xh(\theta)=\theta_0+\theta_1xh(θ)=θ0​+θ1​xThe cost function, “Squared ...

2019-08-31 17:22:40 245 2

原创 梯度下降和Normal Equation的比较

梯度下降和Normal Equation的比较Normal Equation是一种基础的最小二乘方法推导:https://zhuanlan.zhihu.com/p/22757336梯度下降Normal Equation需要选择学习率不需要选择学习率需要很多次迭代不需要很多次迭代复杂度低 O(kn2)O(kn^2)O(kn2)复杂度高 O(n3)O(n...

2019-08-30 10:02:02 336

翻译 Linux升级Python3.7

Linux升级Python3.7Ubuntu18.x默认为python3.6.7,如何将它升级为3.7.x并且使其为默认版本的python呢?首先先查看一下当前Python的版本:python3 -V安装Python3.7在终端输入如下代码安装最新Python3.7apt install python3.7将Python3.6和Python3.7添加到可选择升级当中sud...

2019-08-25 11:51:23 5383

转载 Skew and Kurtosis (峰度和偏度) 转载

SkewnessIt is the degree of distortion from the symmetrical bell curve or the normal distribution. It measures the lack of symmetry in data distribution.It differentiates extreme values in one versu...

2019-08-24 11:13:33 4936 1

原创 PandasBasic基础

Pandas对象import numpy as npimport pandas as pd1. Series对象带有索引数据的一维数组data = pd.Series([0.25, 0.5, 0.75, 1.0])data0 0.251 0.502 0.753 1.00dtype: float64从上面看出,数据和索引(第一列)绑定在一起# ...

2019-07-08 07:31:14 208

原创 图像识别ImageRecognition

图像识别注意:cv2中的色彩排列是(b,g,r),而matplotlib库中的排列方式是(r,g,b),本文件中采用plt进行输出,因此颜色不是准确的颜色1. OpenCV,机器视觉import cv2 as cvimport numpy as npimport matplotlib.pyplot as pltoriginal = cv.imread('../data/fores...

2019-06-18 16:50:40 1849

原创 语音识别SpeechRecognition

语音识别1. 声音的本质是震动,震动的本质是位移关于时间的函数Signal: s = f(t)波形文件(.wav)中记录了不同采样时刻的位移2. 通过傅里叶变换可以将时间域的声音函数分解为一系列不同频率的正弦函数的叠加,通过频率谱线的特殊分布,建立音频内容和文本的对应关系,以此作为模型训练的基础。# audio.pyimport numpy as npimport numpy.ff...

2019-06-18 10:59:22 6537

原创 聚类Clustering

十三、聚类1. 样本相似性:欧氏距离用两个样本对应特征值之差的平方和之平方根,即欧氏距离,来表示这两个样本的相似性。P(x1)−Q(x2):∣x1−x2∣=(x1−x2)2P(x1)-Q(x2):|x1-x2|=\sqrt{(x1-x2)^2}P(x1)−Q(x2):∣x1−x2∣=(x1−x2)2​P(x1,y1)−Q(x2,y2):(x1−x2)2+(y1−y2)2P(x1,y1)...

2019-06-16 10:56:23 723

原创 分类Classification(支持向量机 SVM)

十二、支持向量机(SVM)1. 原理寻求最优分类边界:正确:对大部分样本可以正确地划分类别。泛化:最大化支持向量间距。公平:与支持向量等距。简单:线性,直线或平面,分割超平面。基于核函数的升维变换:通过名为核函数的特征变换,增加新的特征,使得低维度空间中的线性不可分问题变为高维度空间中的线性可分问题。2. 不同核函数的分类效果线性核函数:l...

2019-06-16 10:52:30 4097 1

原创 分类Classification(决策树 DecisionTree 朴素贝叶斯 Naive Bayesian)

八、人工分类输入1输入2输出3102511816405203514714-1068?51?import numpy as npimport matplotlib.pyplot as mpx = np.array([ [3, 1], [2, 5], ...

2019-06-16 10:47:50 581

原创 决策树概览DecisionTreeIntro

七、决策树1. 基本原理相似的输入导致相似的输出。例如:年龄:青年-1,中年-2,老年-3学历:专科-1,本科-2,硕士-3,博士-4经验:缺乏-1,一般-2,丰富-3,资深-4性别:男-1,女-2薪资:1-低,2-中,3-高,4-超高年龄学历工作经验性别薪资数薪资类1112500011221800022...

2019-06-10 09:04:27 170

原创 回归Regression(一元线性回归、岭回归、多元线性回归、多项式回归)

四、一元线性回归1. 预测函数输入输出0113253749……预测函数为:y=1+2xy=1+2xy=1+2x预测:输入10;输出21y=w0+w1xy=w_0+w_1xy=w0​+w1​x,任务就是寻找预测函数中的模型参数w0w_0w0​和w1w_1w1​,以满足输入和输出之间的联系。2. 单样本误差...

2019-06-09 14:13:22 2385

原创 机器学习MachineLearning概述(简单预处理)

机器学习一、概述1. 什么是机器学习?人工智能:通过人工的方法,实现或者近似实现某些需要人类智能处理的问题,都可以称为人工智能。机器学习:一个计算机程序在完成任务T之后,获得经验E,而该经验的效果可以通过P得以表现,如果随着T的增加,借助P来表现的E也可以同步增进,则称这样的程序为机器学习系统。特点:自我完善、自我修正、自我增强。2. 为什么需要机器学习?简化或者替代人工方式的...

2019-06-09 14:04:14 489

原创 将博客搬至CSDN

将博客搬至CSDN 搬家尝试一下CSDN的Markdown编辑器。 posted @ 2019-06-09 10:54 黑洞频率 阅读(...) 评论(...) 编辑 收藏 ...

2019-06-09 10:54:00 88

原创 numpy_basic3

numpy_basic3 矩陣矩阵是numpy.matrix类类型的对象,该类继承自numpy.ndarray,任何针对多维数组的操作,对矩阵同样有效,但是作为子类矩阵又结合其自身的特点,做了必要的扩充,比如:乘法计算、求逆等。矩阵对象的创建可以通过以下三种方式:numpy.matrix(任何可被解释为矩阵的二维容器,copy=是否复制数...

2019-06-08 09:58:00 374

原创 matplotlib

matplotlib 五、数据可视化1. 基本绘图mp.plot(水平坐标, 垂直坐标)# plt1.pyimport numpy as npimport matplotlib.pyplot as mpx = np.linspace(-np.pi, np.pi, 1000) # arange可以生成类似的整数print(x.sha...

2019-05-24 17:03:00 303

原创 numpy_basic2

numpy_basic2 # 六、numpy的常用函数1. 读取文件逻辑上可被解释为二维数组的文本文件:数据项1<分隔符>数据项2<分隔符>...<分隔符>数据项nnumpy.loadtxt(文件路径,delimiter=分隔符(缺省一个空格),usecols=列序列(缺省所有列),unpac...

2019-05-24 17:03:00 423

原创 numpy_basic

numpy_basic 一、Numpy是什么Numerical Python,数值的Python,补充了Python语言所欠缺的数值计算能力。Numpy是其它数据分析及机器学习库的底层库。Numpy完全标准C语言实现,运行效率充分优化。Numpy开源免费。二、Numpy的历史1995年,Numeric,Python语言数值计算扩...

2019-05-19 11:43:00 226

原创 Spider_scrapy

Spider_scrapy 多线程爬虫进程线程回顾进程系统中正在运行的一个应用程序1个CPU核心1次只能执行1个进程,其他进程处于非运行状态N个CPU核心可同时执行N个任务线程进程中包含的执行单元,1个进程可包含多个线程线程可使用所属进程空间(1次只能执行1个线程,阻塞)锁:防止多个线程同时使用共享空间GIL:全局解释...

2019-05-19 11:40:00 276 3

原创 Spider_selenium

Spider_selenium json模块什么是json?javascript中的对象和数组对象:{key:value}取值:对象名.key数组:[...,...]取值:数组[索引值]作用json格式的字符串和Python数据类型之间的转换常用方法json.loads():json格式 --> Python数据类...

2019-05-12 17:35:00 283

原创 Spider_lxml

Spider_lxml xpath工具(解析)xpath在XML文档中查找信息的语言,同样适用于HTML文档的检索xpath辅助工具Chrome插件 :XPath Helper打开 :Ctrl + Shift + X关闭 :Ctrl + Shift + XFirefox插件 :XPath checkerXPath表达式编...

2019-05-12 17:33:00 120

原创 Spider_reg

Spider_reg # 解析数据的分类结构化数据有固定的格式,如 :HTML、XML、JSON非结构化数据图片、音频、视频,这类数据一般都存储为二进制# 正则表达式 re使用流程创建编译对象:p = re.compile("正则表达式")对字符串匹配:r = p.match("字符串")获取匹配结果:print...

2019-05-12 17:32:00 108

原创 Spider_req

Spider_req requests模块安装(用管理员身份去打开Anaconda Prompt)conda install requestspython -m pip install requests # 以管理员身份去执行pip安装命令常用方法get(url,headers=headers):发起请求,获取响应对象respo...

2019-05-12 17:29:00 8161

原创 Spider_basic

Spider_basic 网络爬虫定义:网络蜘蛛、网络机器人,抓取网络数据的程序总结:用Python程序去模仿人去访问网站,模仿的越逼真越好目的:通过有效的大量数据分析市场走势、公司决策企业获取数据的方式公司自有数据第三方数据平台购买数据堂、贵阳大数据交易所爬虫爬取数据市场上没有或者价格太高,利用爬虫程序爬取Py...

2019-05-12 17:23:00 258

原创 在MacOS下使用Fiddler抓包

在MacOS下使用Fiddler抓包 在MacOS下使用Fiddler抓包有两种方式,分别是安装Mac版的Fiddler,或者是用虚拟机,安装Windows系统,在Windows系统下运行Fiddler对Mac系统中的内容进行抓包。Mac版的Fiddler请参考官网的说明以及步骤Fiddler - Free Web Debugging Pr...

2019-05-09 15:37:00 1063

原创 Python正则表达式

Python正则表达式 正则表达式动机文本处理已经成为计算机的常见工作之一对文本内容的搜索,定位,提取是逻辑比较复杂的工作为了快速解决上述问题,产生了正则表达式技术定义即文本的高级匹配模式,提供搜索,替代等功能。其本质是一系列由特殊符号组成的字串,这个字串即正则表达式。匹配原理由普通字符和特殊符号组成字符串,通过描述字符...

2019-04-24 09:14:00 149

原创 Git和GitHub

Git和GitHub Git 代码协同管理工具代码管理工具作用防止代码丢失,做备份代码版本的管理,可以进行多个节点的备份,在多个版本之间跳跃可以方便的将代码在多人之间进行共享传输多人开发时有各种模式可以方便代码管理分布式和集中式git是一个开源的分布式版本控制系统,可用于高效的管理大小项目。分布式(git):每个节点都保...

2019-04-22 15:41:00 66

原创 MongoDB数据库

数据存储阶段文件管理阶段(.txt .doc .xls)优点: 使用简单,展现直观 可以长期保存数据 可存储数据量比较大 缺点: 查找不方便 容易造成数据冗余 数据格式不规范 数据库管理阶段优点: 将数据结构化存储,降低冗余 提高了增删改查效率 方便扩展,方便程序调用 缺点: 数据库往往需要指令或语句操作,相对复杂 概念: 数据:...

2019-04-18 11:16:00 288

原创 PythonServer

PythonServer 服务器模型硬件服务器主机、集群厂商:IBM、HP、联想、浪潮软件服务器:编写的服务端应用程序,在硬件服务器上运行,一般依托于操作系统,给用户提供一套完整的服务httpserver:处理http请求webserver:网站的后端应用服务器程序邮箱服务器:邮件处理ftp文件服务器:文件的上传下载功能...

2019-04-13 14:21:00 563

原创 Python多线程

Python多线程 线程什么是线程线程也是一种多任务编程方法,可以利用计算机多核资源完成程序的并发执行。线程又被称为轻量级的进程。线程特征线程计算机多核分配的最小单位一个进程可以包含多个线程线程也是一个运行的过程,消耗计算机资源,多个线程共享进程的资源和空间线程的创建删除消耗的资源都要远远小于进程多个线程之间执行互不干扰线...

2019-04-11 16:37:00 90

原创 Python多进程

Python多进程 multiprocessing 模块创建进程需要将要执行的事情封装为函数使用multiprocessing模块中Process类创建进程对象通过对象属性设置和Process的初始化函数对进程进行设置,绑定要执行的函数启动进程,会自动执行进程绑定的函数完成进程的回收mp.Process()功能:创建进程对象参...

2019-04-11 11:15:00 170

原创 PythonNET网络编程4

PythonNET网络编程4 本地套接字Linux 文件b(块设备文件) c(字符设备文件) d(目录)-(普通文件) l(链接) s(套接字) p(管道)作用:用于本地不同的程序间进行通信创建流程创建本地套接字sockfd = socket(AF_UNIX,SOCK_STREAM)绑定本地套接字文件选定文件位置和名称so...

2019-04-05 10:58:00 106

原创 PythonNET网络编程3

PythonNET网络编程3 IOIO input output在内存中存在数据交换的操作都可以认为是IO操作和终端交互 : input print和磁盘交互 : read write和网络交互 : recv sendIO密集型程序:在程序执行过程中存在大量IO操作,而cpu运算操作较少,消耗cpu较少,运行效率较低...

2019-04-04 14:06:00 115

原创 PythonNET网络编程2

PythonNET网络编程2 UDP应用:广播广播:一点发送,多点接收广播地址:一个网段内有一个指定的广播地址,是该网段的最大地址192.168.2.255广播风暴:一个网络中有大量的广播就会产生广播风暴占用大量带宽,影响正常的访问速度# 接受广播:from socket import * #创建套接字s = socket...

2019-04-04 10:55:00 217

原创 PythonNET网络编程1

PythonNET网络编程1 # PythonNET 网络编程ISO(国际标准化组织)制定了OSI(Open System Interconnectio),意为开放式系统互联。国际标准化组织(ISO)制定了OSI模型,该模型定义了不同计算机互联的标准,是设计和描述计算机网络通信的基本框架。网络通信工作流程的标准化Ps.高内聚:...

2019-04-03 11:41:00 220

原创 MySQL常用操作

MySQL常用操作表记录管理1. insert 插入 insert into 表名 values(值1),(值2),...; insert into t1 values(1, 'Lucy', 90),(2, 'Green',86); insetr into 表名(字段1,...) values(值1),...; insert into t1(name...

2019-03-31 18:05:00 358

原创 PythonAdvanced

PythonAdvancedPythonAdvancedfunction 函数 (要多使用函数,方便,少变量,好改错)函数是可以重复执行的语句块,可以重复使用作用:1、用于封装语句块,提高代码的重用性2、定义用户级别的函数def 语句 函数定义(创建)语句的语法:def 函数名(形参列表):语句块说明:1、函数的名字就是语句块的名称2、函数名的命名规...

2019-03-31 18:02:00 208

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除