2020年06月_Rnan-prince

原创学做网络爬虫【五】- Scrapy（框架）

Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

2020-06-30 21:18:35 586

原创学做网络爬虫【三】- 数据提取

页面解析和数据提取一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化的数据和结构化的数据。

2020-06-30 00:40:51 418

原创学做网络爬虫【二】- 数据抓取(Requests)

Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 "HTTP for Humans"，说明使用更简洁方便。Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用：）Requests 继承了urllib的所有特性。Requests支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动确定响应内容

2020-06-29 00:52:53 495

原创学做网络爬虫【一】- 爬虫原理

为什么要做网络爬虫？首先请问：都说现在是"大数据时代"，那数据从何而来？企业产生的用户数据：百度指数、阿里指数、TBI腾讯浏览指数、新浪微博指数数据平台购买数据：数据堂、国云数据市场、贵阳大数据交易所政府/机构公开的数据：中华人民共和国国家统计局数据、世界银行公开数据、联合国数据、纳斯达克。数据管理咨询公司：麦肯锡、埃森哲、艾瑞咨询爬取网络数据：如果需要的数据市场上没有，或者不愿意购买，那么可以选择招/做一名爬虫工程师，自己动手丰衣足食。拉勾网Py

2020-06-29 00:34:45 522

原创 HTTP和HTTPS请求与响应

HTTP和HTTPSHTTP协议（HyperText Transfer Protocol，超文本传输协议）：是一种发布和接收 HTML页面的方法。HTTPS（Hypertext Transfer Protocol over Secure Socket Layer）简单讲是HTTP的安全版，在HTTP下加入SSL层。SSL（Secure Sockets Layer 安全套接层）主要用于Web的安全传输协议，在传输层对网络连接进行加密，保障在Internet上数据传输的安全。HTTP的端口号为8

2020-06-29 00:25:17 712

原创 HTTP响应状态码

1xx:信息100 Continue服务器仅接收到部分请求，但是一旦服务器并没有拒绝该请求，客户端应该继续发送其余的请求。101 Switching Protocols服务器转换协议：服务器将遵从客户的请求转换到另外一种协议。2xx:成功200 OK请求成功（其后是对GET和POST请求的应答文档）201 Created请求被创建完成，同时新的资源被创建。202 Accepted供处理的请求已被接受，但是处理未完成。203 Non-authoritative Inform.

2020-06-29 00:09:44 431

原创 html中文件类型的accept属性

*.3gpp audio/3gpp, video/3gpp 3GPP Audio/Video *.ac3 audio/ac3 AC3 Audio *.asf allpication/vnd.ms-asf Advanced Streaming Format *.au audio/basic AU Audio *.css text/css Cascading Style Sheets *.csv text/csv Com

2020-06-29 00:03:36 540

原创 python 配置虚拟环境，多版本管理

在开发Python应用程序的时候，系统安装的Python3只有一个版本：3.x。所有第三方的包都会被pip安装到Python3的site-packages目录下。如果我们要同时开发多个应用程序，那这些应用程序都会共用一个Python，就是安装在系统的Python 3。如果应用A需要python2.7，而应用B需要python 3怎么办？这种情况下，每个应用可能需要各自拥有一套“独立”的Python运行环境。virtualenv就是用来为一个应用创建一套“隔离”的Python运行环境。一、virtu.

2020-06-27 14:39:44 928

原创如何查看python和安装包的版本

命令行下查看python和numpy的版本和安装位置：1、查看python版本C:\Users\Rnanprince>python -VPython 3.7.3C:\Users\Rnanprince>python --versionPython 3.7.3注意：‘--version'中有两个‘-’2、查看python安装位置方法一：　C:\Users\Rnanprince>python -c "import sys; print(sys.executabl

2020-06-27 10:35:36 4664 2

原创 python基础 - pip 安装与升级

pip 是 Python 包管理工具，该工具提供了对Python 包的查找、下载、安装、卸载的功能。Python 2.7.9 + 或 Python 3.4+ 以上版本都自带 pip 工具。pip 官网：https://pypi.org/project/pip/通过以下命令来判断是否已安装：C:\Users\Rnanprince>pip -Vpip 19.1.1 from D:\Program Files\Anaconda3\lib\site-packages\pip (python 3

2020-06-27 10:10:51 5899

原创 python基础 - Scikit-learn

Scikit-learn 是开源的 Python 库，通过统一的界面实现机器学习、预处理、交叉验证及可视化算法。一、加载数据二、训练集与测试集数据三、数据预处理1、标准化2、归一化3、二值化4、编码分类特征5、输入缺失值6、生成多项式特征四、创建模1、有监督学习评估器（1）线性回归（2）支持向量机(SVM)（3）朴素贝叶斯（4）KNN2、无监督学习评估器（1）主成分分析(PCA)（2）K Means五、模型拟合1、有监督学习

2020-06-26 15:35:56 211

原创 PySpark - Spark SQL基础

Spark SQL 是 Apache Spark 处理结构化数据的模块。一、初始化 SparkSessionSparkSession 用于创建数据框，将数据框注册为表，执行 SQL 查询，缓存表及读取 Parquet 文件。from pyspark.sql import SparkSessionspark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config(

2020-06-26 00:22:31 528

原创 python基础 - Pandas

Pandas 是基于 Numpy 创建的 Python 库，为 Python 提供了易于使用的数据结构和数据分析工具。使用以下语句导入 Pandas 库：import pandas as pd1、Pandas 数据结构（1）Series - 序列存储任意类型数据的一维数组：s = pd.Series([3, -5, 7, 4], index=['a', 'b', 'c', 'd'])index value a 3 b -5 c 7 d

2020-06-25 22:10:07 276

原创 python基础 - Numpy

Numpy 是 Python 数据科学计算的核心库，提供了高性能的多维数组对象及处理数组的工具。使用以下语句导入 Numpy 库：import numpy as np1、创建数组a = np.array([1, 2, 3])b = np.array([(1.5, 2, 3), (4, 5, 6)], dtype=float)c = np.array([[(1.5, 2, 3), (4, 5, 6)], [(3, 2, 1), (4, 5, 6)]], dtype=float)np

2020-06-25 21:40:56 348

原创 PySpark - RDD基础

PySpark 是 Spark 的 Python API，允许 Python 调用Spark 编程模型。1、初始化 Sparkfrom pyspark import SparkContextsc = SparkContext(master='local[2]')2、核查 SparkContextsc.version # 获取 SparkContext 版本sc.pythonVer # 获取 Python 版本sc.ma

2020-06-21 17:34:10 541 1

原创 python基础 - 导入数据（Numpy and Pandas）

大多数情况下，都是用 Numpy 或 Pandas 导入数据。一、文本文件1、纯文本文件filename = 'test.txt'file = open(filename, mode='r') # 以只读方式读取文件text = file.read() # 读取文件内容print(file.closed) # 查看文件是否已经关闭file.close() # 关闭文件print(text

2020-06-21 11:50:04 14028 1

原创 python基础 - namedtuple和enum

Python附带⼀个模块，它包含许多容器数据类型，名字叫作collections。我们将讨论的是：namedtuple enum.Enum (包含在Python 3.4以上)另外还有defaultdict、counter、deque很常用不在赘述。1、namedtuple⼀个元组是⼀个不可变的列表，你可以存储⼀个数据的序列，它和命名元组(namedtuples)⾮常像，但有⼏个关键的不同。主要相似点是都不像列表，你不能修改元组中的数据。为了获取元组中的数据，你需要使⽤整数作为索引：

2020-06-20 00:51:54 363

原创 python基础 - itertools工具

Python的内建模块itertools提供了非常有用的用于操作迭代对象的函数。（1）itertools.count()会创建一个无限自然数序列的迭代器，根本停不下来。itertools.count(1) # 1,2,3，...（2）cycle()会把传入的一个序列无限重复下去itertools.cycle('ABC') # A,B,C,A,B,C,...（3）chain()可以把一组迭代对象串联起来，形成一个更大的迭代器itertools.chain('ABC', 'XYZ

2020-06-20 00:37:16 410

原创 Python基础 - Numpy库中的np.sum(array,axis=0,1,2...)

首先看一下什么叫做维度，一个矩阵的维度大家都知道是二维。包含行和列。以下是三维的：c = np.array([[[0, 1, 2, 3], [4, 5, 6, 7]], [[1, 2, 3, 4], [5, 6, 7, 8]]])查看维度：c.ndim = 3，更简单的，小括号旁有几个中括号 [ 就是几维。print(c.ndim) # 3print(c.shape) # (2, ...

2020-06-20 00:30:47 1505

原创 python基础 - Map，Filter 和 Reduce

Map，Filter 和 Reduce 三个函数能为函数式编程提供便利。我们会通过实例⼀个⼀个讨论并理解它们。1、lambda表达式lambda表达式是⼀⾏函数。它们在其他语⾔中也被称为匿名函数。如果你不想在程序中对⼀个函数使⽤两次，你也许会想⽤lambda表达式，它们和普通的函数完全⼀样。原型：lambda 参数:操作(参数)例⼦：add = lambda x, y: x + yprint(add(4, 6))# Output: 10这还有⼀些lambda表达式的应

2020-06-20 00:03:21 134

原创 python基础 - 生成器(Generators)和协程(Coroutine)

⾸先我们要理解迭代器(iterators)。根据维基百科，迭代器是⼀个让程序员可以遍历⼀个容器（特别是列表）的对象。然⽽，⼀个迭代器在遍历并读取⼀个容器的数据元素时，并不会执⾏⼀个迭代。你可能有点晕了，那我们来个慢动作。换句话说这⾥有三个部分：可迭代对象(Iterable) 迭代器(Iterator) 迭代(Iteration)上⾯这些部分互相联系。我们会先各个击破来讨论他们，然后再讨论⽣成器(generators).1、可迭代对象(Iterable)Python中任意的对象，只要它定义了

2020-06-19 00:00:23 553

原创机器学习中的偏差和方差

1、误差的两大来源机器学习中有两个主要的误差来源：偏差和方差。理解它们将协助合理安排时间去执行策略来提升性能。首先了解一下数据集的分类：训练集（training set）用于运行你的学习算法。验证集（hold-out cross validation set）用于调整参数，选择特征，以及对学习算法作出其它决定。测试集（test set）用于评估算法的性能，但不会据此改变学习算法或参数。偏差，可以理解为样本y与模型预测结果的差距，可以使用平方差计算。方差，是样本y值与模型期望的差的

2020-06-18 16:23:42 1723

原创 KPI异常检测【三】- 机器学习算法

1、相关概念1.1 异常类型https://zhuanlan.zhihu.com/p/673962191.2 检测方法https://www.cnblogs.com/rnanprince/articles/10790313.html标记(labels)：有监督，半监督，无监督样本类型困难有监督平衡样本极度不平衡时，训练难；人工标记难半监督极度平衡可能无异常样本无监督无标签有强假设关系，检测存在偏差 .

2020-06-17 23:15:44 4593

原创 python基础 - 生成随机数组

一、random模块python的random模块中有一些生成随机数字的方法，例如random.randint， random.random, random.uniform, random.randrange，这些函数大同小异，均是在返回指定范围内的一个整数或浮点数，下边简单解释一下这几个函数。from random import randomfrom random import randintfrom random import uniformfrom random import rand

2020-06-14 22:51:22 9342

原创 python基础 - networkx 绘图总结

networkx是一个用Python语言开发的图论与复杂网络建模工具，内置了常用的图与复杂网络分析算法，可以方便的进行复杂网络数据分析、仿真建模等工作。利用networkx可以以标准化和非标准化的数据格式存储网络、生成多种随机网络和经典网络、分析网络结构、建立网络模型、设计新的网络算法、进行网络绘制等。networkx支持创建简单无向图、有向图和多重图（multigraph）；内置许多标准的图论算法，节点可为任意数据；支持任意的边值维度，功能丰富，简单易用。networkx以图（graph）为基本数据

2020-06-14 15:45:08 44665 5

Rnan_prince的博客