aizhua3368-CSDN博客

转载 max函数结合lambda使用

说明：d.keys() 以及列表可以看做lambda函数的实参，max的判断对象是key的值。最终返回的是使得key的值最大的那个实参。转载于:https://www.cnblogs.com/houzichiguodong/p/9371984.html...

2018-07-26 15:18:00 1644

转载降维算法----PCA原理推导

1、从几何的角度去理解PCA降维　　以平面坐标系为例，点的坐标是怎么来的？　　　　　　　　　　　　图1 图2　　如上图1所示,向量OA的坐标表示为（3,2），A点的横坐标实为向量OA与单位向量（1,0）的内积得到的（也就...

2018-07-17 17:08:00 344

转载 6.集成算法boosting----AdaBoost算法

1.提升算法　　提升算法实为将一系列单一算法（如决策树，SVM等）单一算法组合在一起使得模型的准确率更高。这里先介绍两种Bagging(代表算法随机森林），Boosting（代表算法AdaBoost-即本篇核心）　　Bagging思想：以随机森林为例　　　　假设样本集的总样本量为100个，每个样本有10个特征（也就是维度是10）；随机取样的比例一般为（60%-80%）　　...

2018-07-06 12:05:00 329

转载 5.聚类算法k-means

聚类与分类的区别在于，是在没有给定划分类别的情况下，更具数据相似度进行样本分组的一种办法，是一种非监督的学习算法，聚类的输入时一组未被标记的样本，聚类更具数据自身的距离或者相似度将其划分为若干组，划分的原则是组内距离最小化，而组间（外部）距离最大化。聚类中的k-means算法1. k-means工作过程：　　下述图片均来自网络　　　　　　（a）表示两类点...

2018-06-30 10:12:00 230

转载 4-EM算法原理及利用EM求解GMM参数过程

1.极大似然估计　　原理：假设在一个罐子中放着许多白球和黑球，并假定已经知道两种球的数目之比为1:3但是不知道那种颜色的球多。如果用放回抽样方法从罐中取5个球，观察结果为：黑、白、黑、黑、黑，估计取到黑球的概率为p;　　假设p=1/4,则出现题目描述观察结果的概率为：(1/4)4*(3/4) = 3/1024　　假设p=3/4,则出现题目描述观察结果的概率为：(3/4)4...

2018-06-26 20:57:00 823

转载 python类装饰器即call方法

上一篇中我对学习过程中的装饰器进行了总结和整理，这一节简单整理下类装饰器1.类中的__call__方法：我们在定义好一个类后，实例化出一个对象，如果对这个对象以直接在后边加括号的方式进行调用，程序就会报错。也就是在类中这种做法是错误的；而,如果一个类中写入了__call__方法，当我问在对实例对象以括号的方式进行调用时，__call__方法中的语句就会被执行，代码如下：...

2018-06-12 17:49:00 156

转载 python装饰器

1.预备知识：1 def Test01():2 print('------Test1----------------')3 def Test01():4 print('------------Test02---------')5 Test01()6 # 结果为：------------Test02---------如下图所示：我们可以...

2018-06-12 16:47:00 79

转载 python动态的添加方法

1.动态的创建实例方法　　 1 class Person(object): 2 def __init__(self,name,age): 3 self.name = name 4 self.age =age 5 def eat(self): 6 print('----%s正在吃饭------' %...

2018-06-12 14:20:00 154

转载 3.决策树ID3算法原理

1.决策树的作用　　主要用于解决分类问题的一种算法2.建立决策树的3中常用算法　　1).ID3---》信息增益　　2).c4.5--> 信息增益率　　4).CART Gini系数3.提出问题：　　ID3算法中，选择根节点时为什么要使得信息增益最大的特征呢？***************************后续内容均为更好的理解3中所提出的的问题展...

2018-06-10 15:51:00 272

转载 scrapy项目5：爬取ajax形式加载的数据，并用ImagePipeline保存图片

1.目标分析：　　我们想要获取的数据为如下图：　　　　1).每本书的名称　　　　2).每本书的价格　　　　3).每本书的简介　　2.网页分析：　　　　网站url：http://e.dangdang.com/list-WY1-dd_sale-0-1.html　　如下图所示，每当我们将滚动条滚动到页面底部是，会自动加载数据,并且url不发生变化，诸如此种加载方...

2018-06-07 19:27:00 148

转载 2.逻辑回归关于二分类问题的理解

1.问题引入总括：逻辑回归其实就是将分类问题数学化，也就是将类别的现象用具体的函数去刻画。现象：如下图，就是一个二分类的具体现象，我们总可以找到一条曲线（判定边界）将两种现象或者特征分割开来.　　2.问题求解问题1：如何用函数去刻画上述分类问题中的判定边界？　　我们可以将上述判定边界分成两个类别，线性与非线性；　　　　1).线性判定边界方程如下：　　　　...

2018-06-05 14:18:00 720

转载 03-下载中间键设置

下载中间键的设置可以分为两步：以设置代理和user-agent为例第一步：编写中间件文件，代码如下：　　　　上述图片中的USER_AGENT_LIST可以卸载中间键（middlewares.py）中,也可以写在settings.py中，如下图：　　第二步：在settings.py文件中启用中间键　转载于:https://www.cnblogs.com/h...

2018-06-03 19:02:00 89

转载 02-scrapy的cmdline命令

1.启动爬虫的命令为： scrapy crawl spidername(爬虫名)2.我们还可以通过下述方式来启动爬虫　　步骤一：创建一个.py文件。startspider.py(这里文件的名称可以自己给定）#!/usr/bin/env python# -*- coding:utf-8 -*-from scrapy import cmdline# 方式一：注意e...

2018-06-03 17:33:00 1050

转载 scrapy项目4：爬取当当网中机器学习的数据及价格（CrawlSpider类）

scrapy项目3中已经对网页规律作出解析，这里用crawlspider类对其内容进行爬取；项目结构与项目3中相同如下图，唯一不同的为book.py文件crawlspider类的爬虫文件book的生成命令为：scrapy genspider -t crawl book 'category.dangdang.com'book.py代码如下：# -*- coding:...

2018-06-03 15:46:00 170

转载 scrapy项目3：爬取当当网中机器学习的数据及价格（spider类）

1.网页解析　　当当网中，人工智能数据的首页url如下为http://category.dangdang.com/cp01.54.12.00.00.00.html　　　　点击下方的链接，一次观察各个页面的url变化，发现每一页的url规律如下：在进行页面切换时除第一页外，其他页面的url变化规律为只有pg后的数字会随着页面的不同而变化，并且和页面数相同，我们就可以利用此规律，...

2018-06-03 15:27:00 190

转载 01-scrapy框架

1.Scrapy图例：　　　　Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。　　Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。　　Downloader（下载器）：负责下载Scr...

2018-06-01 17:22:00 78

转载 1.线性回归算法与梯度下降算法

1.总括：线性回归即我们在分析某些数据样本之间的归来吧时，预先假定其存在线性关系。　　　　在此假设的基础上，利用数据样本拟合出线性方程的权重参数，进而得出此类数据的通用规律。　主要解决的问题:预测连续值变量所对应的结果y　举例：列入我们现在要预测:　　1).大首都北京的房价受那些因素影响（当然是一个复杂的问题，我们在这里只是简化或者说假设）　　2).大首都北京的房价和...

2018-05-31 22:45:00 159

转载 scrapy项目2：爬取智联招聘的金融类高端岗位（spider类）

---恢复内容开始---今天我们来爬取一下智联招聘上金融行业薪酬在50-100万的职位。第一步：解析解析网页当我们依次点击下边的索引页面是，发现url的规律如下：第1页：http://www.highpin.cn/zhiwei/ci_180000_180100_as_50_100.html第2页：http://www.highpin.cn/zhiwei/ci_18...

2018-05-31 15:42:00 214

转载 scrapy项目1：爬取某培训机构老师信息（spider类）

1、scrapy爬虫的流程，可简单该括为以下4步：　　1).新建项目---->scrapy startproject 项目名称（例如：myspider）　　　　>>scrapy.cfg为项目配置文件　　>>myspider:项目的Python模块，将会从这里引用代码　　　　>>mySpider/items.py ：项目的目标文...

2018-05-31 10:52:00 263

转载 Scrapy终端（Scrapy shell）

1.介绍文档：http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/shell.html#2.终端的启用方式：scrapy shell url　　url 即为你要爬取的网站3.使用scrapy shell遇到的问题　　　　当用scrapy shell访问如上图的链接时，报出如下错误：　　DEBUG: Cra...

2018-05-31 09:31:00 325

转载 01-pandas基础-Series与DataFrame

一、Series:1,介绍：Series是以中类似于一维数组的对象，由一维数组以及与之相关的标签组成　　特点：索引在左边，值在右边。在创建时，若我们未给数据指定索引，Series会自动创建一个0到N-1的整数型索引2.通过字典创建　　d_data中和states中索引相同的值将被展示出来，而d_data中没有的显示未NaN　　二、DataFrame1.Data...

2018-05-29 14:00:00 143

转载 Numpy基础(数组创建，切片，通用函数）

1.创建ndarray　　数组的创建函数：　　　　array:将输入的数据（列表，元组，数组，或者其他序列类型）转换为ndarray.要么推断出dtype,要么显式给定dtype　　　　asarray:将输入转换为ndarray,如果输入本身就是一个ndarry就不进行转换　　　　arange:类似于range，但返回的是一个ndarry而不是列表　　　　ones\...

2018-05-29 11:52:00 153

转载 Pandas中的qcut和cut

qcut与cut的主要区别：　　qcut:传入参数，要将数据分成多少组，即组的个数，具体的组距是由代码计算　　cut:传入参数，是分组依据。具体见示例　　1、qcut方法，参考链接：http://pandas.pydata.org/pandas-docs/stable/generated/pandas.qcut.html　　1).参数：pandas.qcut(x,q,...

2018-05-27 22:15:00 337

转载 matplotlib中中文字体配置

解决方式1：利用matplotlib的字体管理工具font_manager---->缺点：每次必须要进行设置import matplotlib.pyplot as pltfrom matplotlib.font_manager import FontPropertiesfont = FontProperties(fname='Desktop/simhei.ttf...

2018-05-25 18:29:00 173

转载爬虫小例1：ajax形式的网页数据的抓取

---恢复内容开始---下面记录如何抓取ajax形式加载的网页数据：目标：获取“https://movie.douban.com/typerank?type_name=%E5%89%A7%E6%83%85&type=11&interval_id=100:90&action=”下的网页数据第一步：网页数据分析-----》特点：当列表条滚动到页面下方时数据...

2018-05-22 15:55:00 146

转载 urllib2之开放代理与私密代理

1、开放代理import urllib2#构建代理对象httpproxy_handler = urllib2.ProxyHandler({'http':'填入代理IP'})#构建opener对象opener = urllib2.build_opener(httpproxy_handler)#构建请求request = urllib2.Request('ht...

2018-05-10 19:50:00 176

转载 javascript中面向对象的两种构建方式（构造函数）和（原型模式的区别）

1、构造函数模式---》alert的结果为false<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>Document</title> <script> f...

2018-05-08 11:18:00 84

转载 javascript之alter的坑

1.注意在使用alert返回两数之和时，会出现0.1+0.2并不等于0.3的bug解决方法:var f=0.1;var g=0.2;alert((parseFloat(f)*100+parseFloat(g)*100/100)2.alert(f==NaN)弹出false　 alert(NaN ==NaN)同样会弹出false　 a = '123abc...

2018-05-06 21:52:00 410

转载 python魔法属性

1.__doc__：表示类的描述信息1 class Person(object):2 '''定义人的类'''3 def func(self):4 pass5 6 print(Person.__doc__)7 结果为：定义人的类2.__module__ ：表示当前操作的对象在那个模块 __class__ ：表示...

2018-05-04 22:26:00 150

转载支持向量机(一)----总述（点到平面的距离，Lagrange函数，Lagrange对偶）

概述：在对支持向量机的学习和使用过程中，遇到了许许多多的问题，通过查阅各种资料，也是逐一攻克了遇到的问题。感悟颇多，写此博文的目的是想以一个学习者的身份从一个刚接触支持向量机的角度去记录模型推到过程中的种种困惑以及理解过程，以帮助更多人的更省时的了解和学习支持向量机；本文主要记录和解决的问题：　　说明：每个问题所标的星级表示此问题的理解对后边推导过程的影响程度，也就是说理解不到位...

2017-08-16 16:23:00 304

转载支持向量机(二）----线性可分支持向量机和硬间隔最大化

问题引入：现假设我们想在圆点“。”和“x”之间修一条水渠，水渠使得两类点位于水渠两侧，并且使得水渠能够做到最宽，显然满足这样条件的水渠（如图2）是唯一的。通过什么方法找到呢？现在我们将其还原到机器学习中，此问题即为一个分类问题，也就是线性支持向量机的目标：找到分离超平面使得其里两类样本点中最近的两类样本点之间的间隔最大；　　　　图1-注：此图的来源为李航统计学习方法 ...

2017-08-16 16:22:00 166

转载支持向量机（三）-线性支持向量机与软间隔最大化

1.线性可分支持向量机的局限性　　在支持向量机（二）中我们已经推导了线性可分支持向量机的原理，但在实际问题中，我们的样本数据可能并不那么完美，可能含有一些噪音点或者异常点，如果我们不考虑噪音点依然使用之前的线性可分模型去考量，那找到的分离超平面未必是最合适的，如下图所示，红圈所示圆点很明显是一个噪音点，此时用线性可分的原理去寻找超平面，就会得到如图实现所示的超平面，从实际角度，虚线所...

2017-08-16 16:22:00 264

转载最小最序列化算法

在支持向量机(二）----线性可分支持向量机原理推导中我们最终将问题转化成为了求解如下式（1）的最大值　　我们将式（1）转换成为如下求解f(α)的最小值的问题　　由约束条件得：　　　　（ζ为常数）即我们将α1α2当做变量，将整体看为常数（ζ）将（3）式代入（2）式对（2）式进行化简：　　　　　　　　...

2017-08-16 16:21:00 136

转载 pandas中的describe方法

转载于:https://www.cnblogs.com/houzichiguodong/p/9319978.html

2017-08-16 16:20:00 448

转载支持向量机（四）----序列最小最优化算法SMO

在支持向量机（二）和（三）中，我们均遗留了一个问题未解决，即如何求解原问题的对偶问题；　　在支持向量机（二）中对偶问题为：　　　　　　　在支持向量机（三）中的对偶问题为：　　　　　对于上述两个对偶问题，我们在支持向量机（三）中分析C的作用时有分析过，当C特别大时，松弛因子ξ=0，故此时的线性支持向量机即为线性可分支持向量机，也就是说线性可分支持向量机可以看做是线性支持...

2017-06-06 01:01:00 236

aizhua3368的博客