关闭

[置顶] 提升方法boosting

本文是《统计学习方法》李航著学习笔记。...
阅读(21) 评论(0)

[置顶] 支持向量机support vector machines

本文是《统计学习方法》李航著学习笔记。 为了叙述方便,将support vector machines简称SVM。SVM是一种二类分类模型,利用SVM对预测实例点进行分类就是根据决策函数的符号划归正负类,下面论述过程主要是有关SVM的模型学习过程。通常针对三种情况构建SVM学习模型: 1.)对线性可分数据集,构建硬间隔最大化的线性可分支持向量机 2.)对存在一些特异点的近似线性可分数据集,构建...
阅读(54) 评论(0)

[置顶] 逻辑斯谛回归与最大熵模型logistic regression/maximum entropy model

本文是《统计学习方法》李航著学习笔记。 为了叙述方便,将logistic regression mode简称LR,maximum entropy mode简称ME。LR和ME都是判别模型,即将预测实例点分配到“条件概率分布”最大的类中。下述讨论会着重于LR模型和ME模型的学习过程。 逻辑斯谛函数: l(x)=11+e−(x−μ)/γ,μ为位置参数,γ>0为形状参数l(x)=\frac{1}{1...
阅读(38) 评论(0)

[置顶] 决策树decision tree

本文是《统计学习方法》李航著学习笔记。 决策树是一种基本的分类与回归方法,这里主要讨论用于分类问题的决策树。...
阅读(69) 评论(0)

[置顶] 朴素贝叶斯法naive Bayes

本文是《统计学习方法》李航著学习笔记。...
阅读(51) 评论(0)

[置顶] k近邻法k-nearest neighbor

本文是《统计学习方法》李航著学习笔记。...
阅读(46) 评论(0)

[置顶] 感知机perceptron

本文是《统计学习方法》李航著学习笔记。 感知机是二类分类的线性分类模型,输入:实例的特征向量,输出:实例的类别。 感知机学习:求将训练数据进行线性划分的分离超平面,即将实例化分为正负两类的分离超平面。 数据集的线性可分性: 感知机模型: 损失函数: 目标函数(算法优化目标,学习目标): 这是一个无约束优化问题,优化方法采用随机梯度下降法。即给定任一参数...
阅读(87) 评论(0)

EM算法expection maximization

本文是《统计学习方法》李航著学习笔记。...
阅读(2) 评论(0)

Python豆瓣静态网页抓取,lxml解析和显示exercise2

联系网页https://movie.douban.com/review/best/ Python源码:import sys import requests import time url='https://movie.douban.com/review/best/' data=requests.get(url) print(data.encoding) print(data.status_code...
阅读(4) 评论(0)

数据科学家——数据挖掘与机器学习

了解数据挖掘与机器学习 了解什么数据分析,什么是数据挖掘,数据挖掘与机器学习有什么区别,学习大数据需要学习哪些课程。基于R语言或Python实现数据挖掘与机器学习的算法。 关联分析 Apriori算法:Apriori是关联规则挖掘中的一个经典算法,该算法是Agrawal和Srikant与1994年提出的一种广度优先的逐层搜索算法,通过对事务计数找出频繁项集,然后再从中推导出关联规则。 决策树分类...
阅读(7) 评论(0)

Python3网络爬虫框架库scrapy

scrapy是一个爬虫框架,官方说明文件参考: https://doc.scrapy.org/en/master/topics/architecture.html 自己配置scrapy的用户会了解到scrapy是基于Twisted配置的,scrapy使用Twisted这个异步网络库来处理网络通讯。scrapy对同一域名允许最多8个并发下载,每2次下载之间没有延时,所以很容易被检测到遭封禁。scr...
阅读(184) 评论(0)

算法概述

研究:时空复杂度等,硬件发展、速度提升、内存提升 在实现之前,预估算法所需要的资源:时间、空间 时空复杂度——时间:基本操作次数;空间:占用内存字节数。空间可以再利用,时空互换(Hash表)。特性:有穷性、确定性、可行性、输入&输出常用算法:穷举(万能算法)——求N个数的全排列,8皇后问题 分而治之(减而治之)——二分查找(减治);归并排序(分治) 贪心——最小生成树(Prim,Kruska...
阅读(12) 评论(0)

面向对象vs面向过程

下述是网上看到的对OOP很直观的解释,包含OOP里一些特有概念存在原因的解释。面向对象的动机很简单,就是为了开发更大规模的软件,开发更容易扩展和维护的软件,便于更多人协同开发软件。事实上,这也是面向过程的动机,只是面向对象扩展了这一点——好比自行车的出现使得我们出行更快更省力,而汽车的设计目标也是如此。面向对象是对面向过程的延伸,而不是否定,所以为了理解为什么要面向对象,我们首先看看为什么要面向过程...
阅读(33) 评论(0)

Python3.5.2爬虫框架库Scrapy安装,Twisted安装

Python的API更新不匹配真是坑爹啊,再加上API开发与Python的版本不一致。。。Twisted和Python3.5.2绝对是有仇。。。 本文主要记录Python3.5.2安装Scrapy库需要wheel库、Twisted库等,主要麻烦是Twisted库更新与wheel和Scrapy端口不匹配。。。首先,去https://pypi.python.org/packages/source/T/...
阅读(215) 评论(0)

Python数据抓取——多线程,异步

本文主要是为了加快数据抓取任务,考虑使用多进程、多线程、异步原理,相关概念可以参考 https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013868322563729e03f6905ea94f0195528e3647887415000操作系统可以同时运行多个任务。首先,考虑单核CP...
阅读(27) 评论(0)

客户端与服务端架构

常见架构:C/S架构:Client/Server(客户端/服务器)结构 需要服务器端部署;用户单独安装客户端,客户端软件升级,服务器端要为每个用户服务!!!可以单机不连网使用。 B/S架构:Browser/Server(浏览器/服务器)结构 需要服务器端部署;浏览器访问;服务器端负责全部逻辑;升级方便;必须连网使用。 CS/BS本质相同,都是客户端与服务器通信,只是表现为不同的形式,...
阅读(48) 评论(0)

Python网页测试库selenium,动态网页抓取

selenium是自动化网页测试工具,它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,使用selenium需要浏览器版本与selenium版本匹配,同时配合浏览器驱动便可实现Web界面的测试,也就是 selenium 支持这些浏览器驱动。 首先,在命令行窗口安装selenium库:pip install selenium, 通过命令:pip show se...
阅读(35) 评论(0)

Python静态网页解析库Bequtifulsoup4

Beautifulsoup4是用于解析html文本的Python库,官方指南参考 https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlfind, select方法:用CSS定位器查找html元素# coding:utf-8import requests from bs4 import BeautifulSoup...
阅读(34) 评论(0)

Python网页请求库Requests

Requests库官方中文文档 http://cn.python-requests.org/zh_CN/latest/# coding:utf-8 Python2加 # 用requests库发送各种请求import requests #Requests拥有了urllib3的所有特性,Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码...
阅读(25) 评论(0)

HTML网页源码,CSS定位

HTML 是用来描述网页的一种语言。HTML 指的是超文本标记语言 (Hyper Text Markup Language)。HTML 不是一种编程语言,而是一种标记语言 (markup language)。标记语言是一套标记标签 (markup tag)。HTML 使用标记标签来描述网页。Web 浏览器的作用是读取 HTML 文档,并以网页的形式显示出它们。浏览器不会显示 HTML 标签,而是使用...
阅读(26) 评论(0)

Python3数据可视化库matplotlib

#Python matplotlib introduce import pandas as pd import os unrate_site = r"D:\PYTHON35\idle\database\plt\UNRATE.csv" pwd = os.getcwd() #获取当前工作目录 os.chdir(os.path.dirname(unrate_site)) #os.chdir改变当前工作目...
阅读(27) 评论(0)
62条 共5页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:3286次
    • 积分:618
    • 等级:
    • 排名:千里之外
    • 原创:61篇
    • 转载:1篇
    • 译文:0篇
    • 评论:0条
    文章存档