自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(76)
  • 论坛 (1)
  • 收藏
  • 关注

原创 七牛云第三方资源获取(python)

研究了半天总算搞清楚七牛云的第三方资源获取,在这里开源一下class SaveImage(object): def __init__(self): # Access Key 和 Secret Key self.access_key = 'YourAK' self.secret_key = 'YourSK' # 构建鉴权对象...

2019-04-23 17:54:12 375 1

原创 自动化与运维入门(五)——代码发布基本知识

1 代码发布简介1.1 什么是代码发布代码发布是:将代码放到互联网服务器上,对外提供web服务。1.2 发布方式常见的代码发布方式有两种:手工方式和脚本方 手工发布代码 脚本发布代码 慢 快 干扰因素多 干扰因素少 不安全 安全2 代码发布流程2.1 流程简介2.2 流程详解2....

2019-03-04 11:16:02 449

原创 概率论与数理统计学习笔记三(随机变量,离散随机变量 分布函数)

第九讲 随机变量这里的性质3可以用函数的概率理解,随机变量本质是函数,而对于一个样本点(x值)只有一个结果(y值),所以x值不同的时候,一定不会有Xi=Xj,也即是空集。第十讲 离散型随机变量01分布二项分布泊松分布...

2019-02-28 13:28:11 893

原创 概率论与数理统计二(全概率公式、贝叶斯公式,条件独立性)

第七讲 全概率公式和贝叶斯公式先看一个题目:其中,P(Bi)的概率称为先验概率,P(Bi|A)的概率称为后验概率

2019-02-26 23:11:48 1386

原创 概率论与数理统计学习笔记 (一)

绪论一、确切来说,概率论和数理统计是两个学科概率论是数学的一个分支,研究如何定量描述随机现象及其规律数理统计则是以数据为唯一研究对象,包括数据的收集、整理、分析和建模,从而对随机现象的某些规律进行预测和决策。二、怎样学习《概率论与数理统计》学思想概率统计特殊的研究对象包含了许多独特的思维方式和思想方式,特别是如何看待和处理随机规律性,是其他学科中没有的。例如:以比较各种事件出现可能性的...

2019-02-20 13:24:02 6642

原创 windows部署代码到docker中

1.按照Docker网上教程很多,这里就不多啰嗦了2.生成requirements.txt文件pip install reqires安装完成后命令行进入项目根目录,输入pipreqs ./ --encoding=utf8如果不进入项目文件夹的话可以修改项目路径,也就是上面的./,后面的–encoding=utf8在window环境下必须加,用来指定编译格式,否则会报错;如果是lin...

2018-12-12 17:24:25 943

原创 如何查找Anaconda中不同环境的位置

因为网上没找到答案所以记录一下本人的路径是在C:\Users\Star Platinum\AppData\Local\conda\conda\envs\python_for_crawl\Scripts主要的话就是在 conda/conda/envs 中实在找不到的可以直接在文件搜索引擎用环境名来找到...

2018-12-06 11:48:10 13504

原创 数据分析简单流程

一 基本统计基本统计分析又叫描述性统计分析,一般统计某个变量的最小值,第一四分位值,中值,第三四分位值,以及最大值。常用的统计指标:指标panda方法或属性计数size()最大值max最小值min求和sum平均值mean方差var标准差std显示各个等分值describe()二 分组分析根据分组字段,将分析...

2018-10-19 00:39:03 457

原创 对于常见排序算法的时间复杂度比较

算法最优最劣平均情况稳定性备注冒泡排序O(n)O(n^2)O(n^2)稳定n小时比较好选择排序O(n^2)O(n^2)O(n^2)不稳定n小时比较好插入排序O(n^2)O(n)O(n^2)稳定大部分已有顺序时好希儿排序O(n)O(n^2)O(nlogn)~O(n^2)不稳定和步长有关快速O(nlogn)...

2018-10-17 20:37:07 720

转载 asyncio学习

asyncio学习https://blog.csdn.net/sylgdxsgx/article/details/79437928

2018-10-12 12:31:19 178

原创 自动化运维入门——(六)代码发布脚本编写

1、简单脚本编写1.1 命令罗列目的:实现代码仓库主机上的操作命令功能即可 实现简单的功能— 简单的命令罗列#!/bin/bash# 功能:打包代码# 脚本名:tar_code.sh# 作者:itcast# 版本:V 0.1# 联系方式:www.itcast.cncd /data/codes[ -f django.tar.gz ] && rm -f...

2018-10-10 11:39:13 2068

原创 自动化运维入门(四)shell流程控制(控制语句与函数)

2 shell流程控制2.1 if分支语句语法格式:if [ 条件 ]then 指令fi # 作为结束语#!/bin/bashif [ "weibo" == "中国人" ]then echo "中国人&

2018-10-10 11:39:06 150

原创 自动化与运维入门(三)shell进阶

什么是代码发布: 把代码放到互联网服务器上,对外提供wen使用 发布代码的方式: 手工发布代码缺点

2018-10-10 11:39:00 298

原创 自动化运维入门(二)shell中的变量

2 shell中的变量2.1 变量介绍在shell中,变量分为全局变量,局部变量,脚本变量三大类。其次,变量的类型只有字符串,只有在数字运算的时候解释器才会把数字解释成数字。 变量的定义:变量名=变量值 例如: python@ubuntu:~/Desktop$ user=python # 当前终端定义变量user的值为python2.2 本地变量本地变量...

2018-10-10 11:38:55 250

原创 自动化与运维入门(一)自动化运维与shell简介

自动化与运维可以做什么消除无效率 - 运维工作的手动工作,如果可以实现自动化,将显著提升效率水平。减少错误 - 即使最谨慎的人,也会犯错,尤其是面对着重复性工作。通过运维自动化工具来完成这样的工作,结果是显而易见的,错误率将大大降低。最大化员工使用 - 通过运维自动化,运维专家们的经历可以集中在更复杂、更有战略意义的业务问题上。同时也降低了雇佣更多员工来应对工作量增加的需求。同样一批人...

2018-10-10 11:38:49 5669 2

原创 rediscrawlSpider使用-亚马逊图书案例

1.需求了解需求:抓取亚马逊图书的信息目标:抓取亚马逊图书信息, 有图书的名字、封面图片地址、图书url地址、作者、出版社、出版时间、价格、图书所属大分类、图书所属小的分类、分类的url地址url:https://www.amazon.cn/%E5%9B%BE%E4%B9%A6/b/ref=sd_allcat_books_l1?ie=UTF8&node=658390051创...

2018-10-10 11:37:50 675

原创 redis-spider的使用:当当网图书爬虫案例

需求:抓取当当图书的信息目标:抓取当当图书信息, 包含: 图书所属大分类、图书所属小的分类、小分类的url地址, 图书的名字、封面图片地址、图书url地址、作者、出版社、出版时间、价格、url:http://book.dangdang.com思路分析: 1. 程序的入口 当当图书中,从大分类入手,还有一个中间分类,以及小分类,小分类对一个的地址就是列表页的地址 注意,url地址的...

2018-10-10 11:37:44 638 1

转载 如何自己实现一个scrapy框架——框架雏形(二)

接着上一篇的文章如何自己实现一个scrapy框架 接着记录一下中间件、日志模块、配置文件的实现一、中间件1 为什么需要中间件中间件相当于一个钩子,能够在其中对request对象和response响应根据特定的需求进行一些特定的处理 例如:对于所有的request对象,我们需要在其中对他添加代理或者是随机的User-Agent都可以在中间件中完成2 中间件实现的逻辑...

2018-10-10 11:37:17 194

转载 如何自己实现一个scrapy框架——框架完善(三)

之前的两篇文章讲解了如何实现一个框架雏形,但是scrapy框架的强大功能一个都没有实现,接下来一个一个实现一、多爬虫实现之一 – 多请求实现在爬虫的时候通常都是多个请求同时进行1、多请求实现分析:2、 项目中实现爬虫文件在main.py同级目录下建立spiders.py,存放定义的爬虫类# project_dir/spiders.pyfrom scrapy...

2018-10-10 11:37:03 421

转载 如何自己实现一个scrapy框架——框架完善(四)

这篇主要讲解如何实现多爬虫文件和多管道一、duo多爬虫文件实现1、首先,将每一个站点的爬虫分离为单独的文件我们项目中的站点一共两个,百度和豆瓣,分离为两个文件 baidu.py# project_dir/spiders/baidu.pyfrom scrapy_plus.core.spider import Spider# 继承框架的爬虫基类class BaiduSpi...

2018-10-10 11:36:50 230

转载 如何自己实现一个scrapy框架——框架完善(五)

本篇内容包括:动态导入模块的实现 ,请求去重的实现,异步的实现一、动态模块导入的实现1 目前代码存在的问题通过前面的代码编写,我们已经能够完成大部分的任务,但是在main.py 中的代码非常臃肿,对应的我们可以在settings.py 配置哪些爬虫,管道,中间件需要开启,能够让整个代码的逻辑更加清晰2 模块动态导入的方法利用importlib.import_m...

2018-10-10 11:36:44 201 1

转载 如何自己实现一个scrapy框架——框架升级(六)

框架升级 – 分布式爬虫设计原理及其实现1 分布式爬虫原理多台服务器同时抓取数据,请求和指纹存储在同一个redis中 2 实现方案——利用redis实现队列注意pickle模块的使用:如果将对象存入redis中,需要先将其序列化为二进制数据,取出后反序列化就可以再得到原始对象 接口定义一致性:使用一个Queue利用redis,使其接口同python的内置队列接口一致,可以实现无...

2018-10-10 11:36:39 261

转载 如何自己实现一个scrapy框架——框架升级(七)

一、增量爬虫设计原理及其实现1、增量爬虫设计原理增量抓取,意即针对某个站点的数据抓取,当网站的新增数据或者该站点的数据发生了变化后,自动地抓取它新增的或者变化后的数据 设计原理: 2、实现关闭请求去重 2.1 为Request对象增加属性filter# scrapy/http/reqeust.pyclass Request(): ""&a

2018-10-10 11:36:33 309

原创 如何自己实现一个scrapy框架——项目实战(八)

腾讯招聘爬虫案例1 腾讯招聘爬虫代码from scrapy_plus.core.spider import Spiderfrom scrapy_plus.htttp.request import Requestclass TencentSpider(Spider): name = 'tencent' start_urls = ['https://hr.tenc...

2018-10-10 11:36:22 259

转载 如何自己实现一个scrapy框架——框架雏形(一)

一、了解框架1、首先明确一下,什么是框架:框架是为了为解决一类问题而开发的程序,框架两个字可以分开理解,框:表示指定解决问题的边界,明确要解决的问题;架:表达的是能够提供一定的支撑性和可扩展性;从而实现解决这类问题达到快速开发的目的。2、实现框架的好处是什么2.1现成开源第三方框架的局限性 现成开源第三方框架是为了尽可能满足大部分的需求,不可能做到面面俱到,以及第三方框架...

2018-10-10 11:36:03 296

原创 数据分析与挖掘入门——学习笔记(九)Pandas高级操作

缺失值处理对于获取到的数据,总会有一些是缺少的,如果这些缺少的数据对于我们的接下来的工作无关紧要,就可以直接舍弃;而有作用的就要应该补齐。我们使用一些电影数据来说明接下来的操作,先看看电影数据的结构import pandas as pd# 读取电影数据movie = pd.read_csv("data/IMDB/IMDB-Movie-Data.csv") index ...

2018-09-17 15:59:42 828

原创 数据分析与挖掘入门——学习笔记(八)Pandas基本操作、运算、画图和IO操作

一、基本操作为了更好的理解这些基本操作,我们将读取一个真实的股票数据。关于文件操作,后面在介绍,这里只先用一下API# 读取文件data = pd.read_csv("./stock_day/stock_day.csv")# 删除一些列,让数据更简单些,再去做后面的操作data = data.drop(["ma5","ma10","ma20","v_ma5","v_ma10&qu

2018-08-26 16:43:58 351

原创 数据分析与挖掘入门——学习笔记(七)Pandas简介与其数据结构

1 Pandas介绍1.1 Pandas介绍2008年WesMcKinney开发出的库 专门用于数据挖掘的开源python库 以Numpy为基础,借力Numpy模块在计算方面性能高的优势 基于matplotlib,能够简便的画图 独特的数据结构1.2 为什么使用PandasNumpy已经能够帮助我们处理数据,能够结合matplotlib解决部分数据展示等问题,那么pan...

2018-08-23 17:30:46 163

原创 数据分析与挖掘入门——学习笔记(六)matplotlib的常用图表

matplotlib的常用图表常见图形种类及意义折线图:以折线的上升或下降来表示统计数量的增减变化的统计图 特点:能够显示数据的变化趋势,反映事物的变化情况。(变化)散点图:用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式。 特点:判断变量之间是否存在数量关联趋势,展示离群点(分布规律)柱状图:排列在工作表的列或行中的数据可以绘...

2018-08-23 16:43:10 289

原创 数据分析与挖掘入门——学习笔记(五)Matplotlib的简介、折线图与基础绘画功能

一 Matplotlib的简介1.1 什么是Matplotlib专门用于开发2D图表(包括3D图表)使用起来及其简单以渐进、交互式方式实现数据可视化1.2 为什么要学习Matplotlib可视化是在整个数据挖掘的关键辅助工具,可以清晰的理解数据,从而调整我们的分析方法。能将数据进行可视化,更直观的呈现使数据更加客观、更具说服力1.3 实现一个简单的Ma...

2018-08-23 14:46:20 650

原创 数据分析与挖掘入门——学习笔记(四)利用NumPy进行历史股价分析

利用NumPy进行历史股价分析该练习使用的csv文件如下: 其中第二列为日期,格式是%d-%m-%Y;第四到七列分别是当日开盘价,最高价,最低价,收盘价和成交量 准备工作:import sysimport numpy as np# 读入文件,函数是loadtxt# 第一个参数是文件名,delimiter是获取的数据的分隔符,usecols是指定读取哪列的数据,unpack为...

2018-08-22 10:55:07 366

原创 数据分析与挖掘入门——学习笔记(三)numpy的基本函数使用

numpy的基本函数使用1 通用函数汇总 示例:from numpy.random import randnimport numpy as nparr = np.arange(10)np.sqrt(arr) # 数组开方# array([ 0. , 1. , 1.41421356, 1.73205081, 2. ,...

2018-08-21 12:28:23 199

原创 数据分析与挖掘入门——学习笔记(二)numpy的基本使用

Numpy的基本使用1 numpy的运算速度用python实现的向量相加def pythonsum(n): a = [i for i in range(size)] b = [i for i in range(size)] c = [] for i in range(len(a)): a[i] = i ** 2 b[i...

2018-08-20 22:17:38 168

原创 数据分析与挖掘入门——学习笔记(一)python中常见的各种数学,字符串符号以及函数

python常用数学函数常用随机函数常用三角函数常见数学常量常见转义字符字符串格式化

2018-08-20 15:36:28 631

原创 Docker(应用篇)

1 安装Docker安装系统:Ubuntu16.04安装流程如下:更新ubuntu的apt源索引sudo apt-get update安装包允许apt通过HTTPS使用仓库sudo apt-get install \ apt-transport-https \ ca-certificates \ curl \ software-prope...

2018-08-19 10:59:25 168

原创 scrapy可视化管理工具gerapy学习笔记

安装和使用的方法见链接https://cuiqingcai.com/4959.html 值得注意的是需要的request版本比较高,如果本机有需要用到低版本的request,最好在虚拟机中安装总结一个管理爬虫项目的可视化工具,把项目部署到管理的操作全部变为交互式,相当的直观和方便。但是比起spiderkeeper相比缺少了定时爬虫功能,同时对于爬虫情况的可视化也不够完善。...

2018-08-18 21:31:43 1213

原创 scrapy可视化管理工具spiderkeeper使用笔记

spiderkeeper是一款开源的spider管理工具,可以方便的进行爬虫的启动,暂停,定时,同时可以查看分布式情况下所有爬虫日志,查看爬虫执行情况等功能。安装安装环境 ubuntu16.04 python3.5 pip3 install scrapy pip3 install scrapyd pip3 install scrapyd-client pip3 install ...

2018-08-18 19:44:17 9279 9

原创 python搜索算法实现——(二)贪婪算法

贪婪算法简介假设你办了个广播节目,要让全美国50个州的听众都能听得到,为此, 你需要决定在哪些广播台播出。每个广播台台播出都需要费用,所以你需要尽可能地在更少的广播台播出节目。现有广播台名单如下: 每个广播台都覆盖不同的范围,但是有些是重复的 如何才能找出覆盖全美50个州的最小广播台集和呢?先提供一种方法: (1)列出每种可能的广播台集和,称之为幂集,总共有2^n种集和 (2)...

2018-08-18 15:28:36 8313 1

原创 python实现数据结构——(七)二叉树结构简单实现

二叉树的基本概念二叉树是每个节点最多有两个子树的树结构。通常子树被称作“左子树”(left subtree)和“右子树”(right subtree)二叉树的性质(特性)性质1:在二叉树的第i层上至多有2^(i-1)个结点(i>0) 性质2:深度为k的二叉树至多有2^k - 1个结点(k>0) 性质3:对于任意一棵二叉树,如果其叶结点数为N0,而度数为2的结点总数...

2018-08-18 12:50:27 6086 1

转载 树算法简介

“树”的概念树(英语:tree)是一种抽象数据类型(ADT)或是实作这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。它是由n(n>=1)个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。它具有以下的特点:每个节点有零个或多个子节点;没有父节点的节点称为根节点;每一个非根节点有且只有一个父节点;除了...

2018-08-18 11:42:20 127

空空如也

scrapy如何获取response请求头中的多个set-cookie

发表于 2018-10-17 最后回复 2018-11-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除