kissazhu-CSDN博客

原创机器学习笔记 - 感知机

感知机模型感知机（perceptron）是二类分类的现行分类模型，输入为实例的特征向量，输出为实例的类别（-1,1）。感知机对应于输入空间（特征空间）中的一个分离超平面，这个分离超平面将实例划分为正负两类，属于判别模型。感知机的学习旨在求出将训练数据进行线性划分的分离超平面，为此导入基于误分类的损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型。感知机是神经网络与支持向量...

2018-10-08 16:55:55 900

原创 Python连接Oracle数据库

import pandas as pdimport cx_Oracle#连接数据库#user/password@dbnameconn = cx_Oracle.connect('user/***@db_name') #创建cursorcursor = conn.cursor()#执行的SQL语句sql = """ SELECT * FROM *******...

2018-08-15 17:57:30 795

原创 dataframe corr() 返回 empty dataframe

错误源于dataframe中的数据类型为object而非数字df.dtypes可以查看数据类型df.dtypesOut[60]: IR_CELL_X_ID_CNT objectIR_CELL_INLISTWITH_ID objectIR_ID_X_CELL_NOTMAT_DAYS objectIR_ID_INLISTWITH_CELL ...

2018-08-06 17:52:25 6710

原创 Python相关性分析

# -*- coding: utf-8 -*-"""Created on Thu Aug 2 11:17:06 2018@author: 102155"""def mean(x): return sum(x)/len(x)#计算每项数据与均值的差def de_mean(x): x_bar = mean(x) return [x_i - x_bar f...

2018-08-06 16:35:02 2260

原创 Oracle的Nvl函数用法

从两个表达式返回一个非 null 值。语法NVL(A, B) 如果A为null，则返回B，否则返回A。例如NVL（A,0），如果A为null，返回0。

2018-07-18 18:24:06 32753 2

原创 SQL快速参考

SQL 快速参考SQL 语句语法 AND / OR SELECT column_name(s) FROM table_name WHERE condition AND|OR condition ALTER TABLE ALTER TABLE table_name ADD column_name datatype or ALTE...

2018-07-18 18:21:29 332

原创 SQL学习笔记

因工作需要，学习了一些SQL知识，以下为学习笔记。 SQL 是用于访问和处理数据库的标准的计算机语言。SQL指结构化查询语言，全称是 Structured Query Language。SQL 是一种 ANSI（American National Standards Institute 美国国家标准化组织）标准的计算机语言。SQL 能做什么？SQL 面向数据库执行查询 SQL...

2018-07-18 18:19:16 329

原创 Oracle trunc()函数的用法

--Oracle trunc()函数的用法/**************日期********************/select trunc(sysdate) from dual --2018-7-9 今天的日期为2018-7-9select trunc(sysdate, 'mm') from dual --2018-7-1 返回当月第一天.select tr...

2018-07-09 11:06:01 1154

原创 Python爬虫（入门+进阶）学习笔记 3-2 爬虫工程师进阶（八）：去重与入库

数据去重又称重复数据删除，是指在一个数字文件集合中，找出重复的数据并将其删除，只保存唯一的数据单元。数据去重可以有效避免资源的浪费，所以数据去重至关重要。数据去重数据去重可以从两个节点入手：一个是URL去重。即直接筛选掉重复的URL；另一个是数据库去重。即利用数据库的一些特性筛选重复的数据。 def process_spider_output(self, response, result, spi...

2018-06-30 13:23:33 1937

原创 Python爬虫（入门+进阶）学习笔记 3-1 爬虫工程师进阶（七）：HTTP请求分析

Chrome浏览器相对于其他的浏览器而言，DevTools（开发者工具）非常强大。这节课将为大家介绍怎么利用Chrome浏览器的开发者工具进行HTTP请求分析Chrome浏览器讲解Chrome 开发者工具是一套内置于Google Chrome中的Web开发和调试工具，可用来对网站进行迭代、调试和分析打开Chrome开发工具在Chrome菜单中选择更多工具 >开发者工具在页面元素上右键点击，选...

2018-06-30 13:09:38 2392

原创 Python爬虫（入门+进阶）学习笔记 2-6 Scrapy的Request和Response详解

上节课我们学习了中间件，知道了怎么通过中间件执行反反爬策略。本节课主要介绍Scrapy框架的request对象和response对象通常，Request对象在爬虫程序中生成并传递到系统，直到它们到达下载程序，后者执行请求并返回一个Response对象，该对象返回到发出请求的爬虫程序Request类和Response类都有一些子类，子类用来添加基类中不必要的功能。这些在下面的请求子类和响应子类中描述...

2018-06-30 12:56:07 3211

原创 Python爬虫（入门+进阶）学习笔记 2-5 Scrapy的中间件

上一节我们学习怎么去保存爬取的结果，然而大多数时候裸奔的请求很容易被网站反爬技术识别，导致并不能获取到我们想要的数据，我们该怎么做呢？中间件就可以帮你解决这些事下载中间件（Downloader middlewares）Scrapy框架中的中间件主要分两类：蜘蛛中间件和下载中间件。其中最重要的是下载中间件，反爬策略都是部署在下载中间件中的蜘蛛中间件是介入到Scrapy的spider处理机制的钩子框架...

2018-06-30 12:49:48 1589

原创 Python爬虫（入门+进阶）学习笔记 2-4 Scrapy的项目管道

上一节已学习了选择器的应用，可是爬取到了结果该怎么处理呢？本节课主要介绍Scrapy框架的另一部分——Item管道，用于处理爬取到的数据Item管道（Item Pipeline）的介绍管道是什么Item管道(Item Pipeline)：主要负责处理有蜘蛛从网页中抽取的Item，主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后，将被发送到Item管道，并经过几个特定的次序处理数据。每个Item管...

2018-06-30 12:08:36 946

原创 Python爬虫（入门+进阶）学习笔记 2-3 Scrapy选择器的用法

当我们抓取网页时，最常见任务就是从HTML源码中提取数据，可是怎么提取数据呢？当然就是用选择器了。本节课主要介绍CSS，Xpath，正则表达式，pyquery四种选择器。四大选择器Scrapy 提取数据有自己的一套机制。它们被称作选择器(seletors)，通过特定的 Xpath 、 CSS 表达式或者正则表达式来选择 HTML 文件中的某个部分的数据。我们常用的选择器有四种：CSS选择器，Xpa...

2018-06-30 11:54:34 549

原创 Python爬虫（入门+进阶）学习笔记 2-2 Scrapy安装及基本使用

Mac系统安装流程：可以直接使用pip install scrapy进行安装 Scrapy爬虫的使用一个基本的爬虫只需要两部分组成：Spider（爬虫）、Pipeline（管道）。Spider是什么？Spider类定义了如何爬取某个(或某些)网站，包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是定义爬取的动作及分析某个网页(或...

2018-06-30 11:42:28 523

原创 Python爬虫（入门+进阶）学习笔记 2-1 爬虫工程化及Scrapy框架初窥

本章节将会系统地介绍如何通过Scrapy框架把爬虫工程化。本节主要内容是：简单介绍Python和爬虫的关系，以及将要使用的Scrapy框架的工作流程。Python适合做爬虫的原因语言本身简单，适合敏捷开发有比较完善的工具链足够灵活，以应对各种突然状况爬虫的知识体系前端相关知识：html，css，js；浏览器相关知识；各种数据库的运用；http协议的了解；对于前后台联动的方案；爬虫进阶的工作流程Sc...

2018-06-30 11:06:24 1523

原创 Python爬虫（入门+进阶）学习笔记 1-8 使用自动化神器Selenium爬取动态网页（案例三：爬取淘宝商品）

selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（Selenium Grid）。Selenium的核心Selenium Core基于JsUnit，完全由JavaScript编写，因此可以用于任何支持JavaScript的浏览器上。 selenium可以模拟真...

2018-03-28 15:02:38 836

原创 Python爬虫（入门+进阶）学习笔记 1-7 数据入库之MongoDB（案例二：爬取拉勾）

MongoDB：1. 什么是MongoDB MongoDB是一个高性能，开源，无模式的文档型数据库 MongoDB 将数据存储为一个文档，数据结构由键值(key=>value)对组成2. MongoDB相关的安装 Mac OS 安装MongoDB：官网下载：https://www.mongodb.com/download-center#community ...

2018-03-28 11:20:42 772

原创 Python爬虫（入门+进阶）学习笔记 1-6 浏览器抓包及headers设置（案例一：爬取知乎）

爬虫的一般思路：抓取网页、分析请求解析网页、寻找数据储存数据、多页处理本节课主要讲授如何通过谷歌浏览器开发者工具分析真实请求的方法。寻找真实请求的三个步骤分析：使用谷歌浏览器开发者工具分析网页的请求测试：测试URL请求中每个参数的作用，找出控制翻页等功能的参数重复：多次重复寻找符合爬虫需要的真实请求实战环节：爬取知乎通过爬取知乎“轮子哥”——vczh关注的人分析Ajax或者JavaScript加...

2018-03-27 19:35:36 4228

原创 Python爬虫（入门+进阶）学习笔记 1-5 使用pandas保存豆瓣短评数据

1. Python数据分析的工具包numpy： (Numerical Python的简称)，是高性能科学计算和数据分析的基础包pandas：基于Numpy创建的Python包，含有使数据分析工作变得更加简单的高级数据结构和操作工具matplotlib：是一个用于创建出版质量图表的绘图包（主要是2D方面）import pandas as pd #导入pandasimport numpy as np...

2018-03-27 19:17:44 955 1

原创 Python爬虫（入门+进阶）学习笔记 1-4 使用Xpath解析豆瓣短评

本节课程主要介绍解析神器Xpath是什么、Xpath如何安装及使用，以及使用实际的例子讲解Xpath如何解析豆瓣短评的网页并获取数据。解析神器XpathXpath的使用实战环节解析神器Xpath：1. 什么是XpathXPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。起...

2018-03-27 17:26:37 978 1

原创 Python爬虫（入门+进阶）学习笔记 1-3 使用Requests爬取豆瓣短评

Requests库介绍：Requests库官方的介绍有这么一句话：Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。这句话直接并霸气地宣示了Requests库是python最好的一个HTTP库。为什么它有这样的底气？请阅读Requests官方文档。requests库的安装：终端 pip install requestsRequests的简单用法Request...

2018-03-27 17:07:06 3283 2

原创 Python爬虫（入门+进阶）学习笔记 1-2 初识Python爬虫

本人Mac + Anaconda(Python3) + PyCharm + Chrome简单来说，Anaconda是包管理器和环境管理器。Anaconda 附带了一大批常用数据科学包，它附带了 conda、Python 和 150 多个科学包及其依赖项。因此你可以立即开始处理数据。Anaconda 是在 conda（一个包管理器和环境管理器）上发展出来的。在数据分析中，你会用到很多第三方的包，而c...

2018-03-27 16:52:17 2648

原创 Python爬虫（入门+进阶）学习笔记 1-1 什么是爬虫？

爬虫的定义：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。网页的两种加载方法同步加载：改变网址上的某些参数会导致网页发生改变，例如：www.itjuzi.com/company?page=1（改变page=后面的数字，网页会发生改变）异步加载：改变网址上的参数不会使网页发生改变，例如：www.lago...

2018-03-27 16:33:42 2259

原创 Python Django+Echarts将数据作可视化输出

以上为最终结果Django是开放源代码的Web应用框架，由Python语言编写。pip3 install django安装Django，并加入系统变量Path。创建Django项目，并在PyCharm下的terminal输入：python manage.py startapp Reconnaissance路由都在urls文件里，它将浏览器输入的url映射到相

2017-09-30 13:47:42 50652 7

原创 Python中Pandas库 Dataframe的基本操作

Python中Pandas库 Dataframe的基本操作：import numpy as npimport pandas as pdfrom pandas import Sereis, DataFrameser = Series(np.arange(3.))data = DataFrame(np.arange(16).reshape(4,4),index=list('abcd')

2017-09-27 16:21:01 950

原创 python机器学习库scikit-learn: Lasso Regression

from sklearn.datasets import make_regressionfrom sklearn.linear_model import Lasso'''创造数据X Y'''reg_data, reg_target = make_regression(n_samples=200, n_features=500, n_informative=5, noise=5)''' 通过交叉检验

2017-09-27 13:41:45 11528 3

原创 Python 线性回归

# -*- coding: utf-8 -*-"""Created on Wed Sep 20 16:46:53 2017@author: longsheng"""import numpy as npfrom statsmodels import regressionimport statsmodels.api as smimport matplotlib.pyplot as

2017-09-27 13:24:09 785

kissazhu的博客