机器学习笔记 - 感知机

感知机模型 感知机(perceptron)是二类分类的现行分类模型,输入为实例的特征向量,输出为实例的类别(-1,1)。 感知机对应于输入空间(特征空间)中的一个分离超平面,这个分离超平面将实例划分为正负两类,属于判别模型。 感知机的学习旨在求出将训练数据进行线性划分的分离超平面,为此导入基...

2018-10-08 16:55:55

阅读数 84

评论数 0

Python连接Oracle数据库

import pandas as pd import cx_Oracle #连接数据库 #user/password@dbname conn = cx_Oracle.connect('user/***@db_name') #创建cursor cursor = conn.cursor() ...

2018-08-15 17:57:30

阅读数 155

评论数 0

dataframe corr() 返回 empty dataframe

错误源于dataframe中的数据类型为object而非数字 df.dtypes可以查看数据类型 df.dtypes Out[60]: IR_CELL_X_ID_CNT object IR_CELL_INLISTWITH_ID object IR_ID_X...

2018-08-06 17:52:25

阅读数 775

评论数 0

Python相关性分析

# -*- coding: utf-8 -*- """ Created on Thu Aug 2 11:17:06 2018 @author: 102155 """ def mean...

2018-08-06 16:35:02

阅读数 387

评论数 0

Oracle的Nvl函数用法

从两个表达式返回一个非 null 值。语法 NVL(A, B)     如果A为null,则返回B,否则返回A。 例如NVL(A,0),如果A为null,返回0。

2018-07-18 18:24:06

阅读数 1524

评论数 0

SQL快速参考

SQL 快速参考 SQL 语句 语法 AND / OR SELECT column_name(s) FROM table_name WHERE condition AND|OR condition ALTER TABLE ALTER TABLE tab...

2018-07-18 18:21:29

阅读数 54

评论数 0

SQL学习笔记

因工作需要,学习了一些SQL知识,以下为学习笔记。   SQL 是用于访问和处理数据库的标准的计算机语言。 SQL指结构化查询语言,全称是 Structured Query Language。SQL 是一种 ANSI(American National Standards Institute...

2018-07-18 18:19:16

阅读数 65

评论数 0

Oracle trunc()函数的用法

--Oracle trunc()函数的用法 /**************日期********************/ select trunc(sysdate) from dual --2018-7-9 今天的日期为2018-7-9 select trunc(sysdate, 'm...

2018-07-09 11:06:01

阅读数 214

评论数 0

Python爬虫(入门+进阶)学习笔记 3-2 爬虫工程师进阶(八):去重与入库

数据去重又称重复数据删除,是指在一个数字文件集合中,找出重复的数据并将其删除,只保存唯一的数据单元。数据去重可以有效避免资源的浪费,所以数据去重至关重要。数据去重数据去重可以从两个节点入手:一个是URL去重。即直接筛选掉重复的URL;另一个是数据库去重。即利用数据库的一些特性筛选重复的数据。 de...

2018-06-30 13:23:33

阅读数 727

评论数 0

Python爬虫(入门+进阶)学习笔记 3-1 爬虫工程师进阶(七):HTTP请求分析

Chrome浏览器相对于其他的浏览器而言,DevTools(开发者工具)非常强大。这节课将为大家介绍怎么利用Chrome浏览器的开发者工具进行HTTP请求分析Chrome浏览器讲解Chrome 开发者工具是一套内置于Google Chrome中的Web开发和调试工具,可用来对网站进行迭代、调试和分...

2018-06-30 13:09:38

阅读数 412

评论数 0

Python爬虫(入门+进阶)学习笔记 2-6 Scrapy的Request和Response详解

上节课我们学习了中间件,知道了怎么通过中间件执行反反爬策略。本节课主要介绍Scrapy框架的request对象和response对象通常,Request对象在爬虫程序中生成并传递到系统,直到它们到达下载程序,后者执行请求并返回一个Response对象,该对象返回到发出请求的爬虫程序Request类...

2018-06-30 12:56:07

阅读数 313

评论数 0

Python爬虫(入门+进阶)学习笔记 2-5 Scrapy的中间件

上一节我们学习怎么去保存爬取的结果,然而大多数时候裸奔的请求很容易被网站反爬技术识别,导致并不能获取到我们想要的数据,我们该怎么做呢?中间件就可以帮你解决这些事下载中间件(Downloader middlewares)Scrapy框架中的中间件主要分两类:蜘蛛中间件和下载中间件。其中最重要的是下载...

2018-06-30 12:49:48

阅读数 525

评论数 0

Python爬虫(入门+进阶)学习笔记 2-4 Scrapy的项目管道

上一节已学习了选择器的应用,可是爬取到了结果该怎么处理呢?本节课主要介绍Scrapy框架的另一部分——Item管道,用于处理爬取到的数据Item管道(Item Pipeline)的介绍管道是什么Item管道(Item Pipeline):主要负责处理有蜘蛛从网页中抽取的Item,主要任务是清洗、验...

2018-06-30 12:08:36

阅读数 139

评论数 0

Python爬虫(入门+进阶)学习笔记 2-3 Scrapy选择器的用法

当我们抓取网页时,最常见任务就是从HTML源码中提取数据,可是怎么提取数据呢?当然就是用选择器了。本节课主要介绍CSS,Xpath,正则表达式,pyquery四种选择器。四大选择器Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors),通过特定的 Xpath 、 CSS 表达...

2018-06-30 11:54:34

阅读数 146

评论数 0

Python爬虫(入门+进阶)学习笔记 2-2 Scrapy安装及基本使用

Mac系统安装流程:可以直接使用pip install scrapy进行安装 Scrapy爬虫的使用一个基本的爬虫只需要两部分组成:Spider(爬虫)、Pipeline(管道)。Spider是什么?Spider类定义了如何爬取某个(或某些)网站,包括了爬取的动作(例如:是否跟进链接)以及如何从网...

2018-06-30 11:42:28

阅读数 138

评论数 0

Python爬虫(入门+进阶)学习笔记 2-1 爬虫工程化及Scrapy框架初窥

本章节将会系统地介绍如何通过Scrapy框架把爬虫工程化。本节主要内容是:简单介绍Python和爬虫的关系,以及将要使用的Scrapy框架的工作流程。Python适合做爬虫的原因语言本身简单,适合敏捷开发有比较完善的工具链足够灵活,以应对各种突然状况爬虫的知识体系前端相关知识:html,css,j...

2018-06-30 11:06:24

阅读数 646

评论数 0

Python爬虫(入门+进阶)学习笔记 1-8 使用自动化神器Selenium爬取动态网页(案例三:爬取淘宝商品)

    selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理(Selenium Grid)。Selenium的核心Selenium Core基于JsUnit,完全由JavaS...

2018-03-28 15:02:38

阅读数 286

评论数 0

Python爬虫(入门+进阶)学习笔记 1-7 数据入库之MongoDB(案例二:爬取拉勾)

MongoDB:1. 什么是MongoDB    MongoDB是一个高性能,开源,无模式的文档型数据库     MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成2. MongoDB相关的安装    Mac OS 安装MongoDB:    ...

2018-03-28 11:20:42

阅读数 203

评论数 0

Python爬虫(入门+进阶)学习笔记 1-6 浏览器抓包及headers设置(案例一:爬取知乎)

爬虫的一般思路:抓取网页、分析请求解析网页、寻找数据储存数据、多页处理 本节课主要讲授如何通过谷歌浏览器开发者工具分析真实请求的方法。寻找真实请求的三个步骤分析:使用谷歌浏览器开发者工具分析网页的请求测试:测试URL请求中每个参数的作用,找出控制翻页等功能的参数重复:多次重复寻找符合爬虫需要的真实...

2018-03-27 19:35:36

阅读数 1288

评论数 0

Python爬虫(入门+进阶)学习笔记 1-5 使用pandas保存豆瓣短评数据

1. Python数据分析的工具包numpy: (Numerical Python的简称),是高性能科学计算和数据分析的基础包pandas:基于Numpy创建的Python包,含有使数据分析工作变得更加简单的高级数据结构和操作工具matplotlib:是一个用于创建出版质量图表的绘图包(主要是2D...

2018-03-27 19:17:44

阅读数 329

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭