anzhehan1535-CSDN博客

转载 centos下安装python相关

centos 安装python相关python3https://blog.csdn.net/tanxiaob/article/details/78725301yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-...

2019-09-24 16:27:00 336

转载 selenium - 截图下载图片

from selenium import webdriverfrom selenium.webdriver import ChromeOptionsfrom time import sleepfrom PIL import Imageimport requestsclass Get_ahth(): """ 将验证码图片下到本地 ...

2019-09-24 16:26:00 380

转载 scrapy - 给scrapy 的spider 传值

scrapy - 给scrapy 的spider 传值方法一：在命令行用crawl控制spider爬取的时候，加上-a选项，例如：scrapy crawl myspider -a category=electronics　　然后在spider里这样写：import scrapyclass MySpider(scrapy.Spider):...

2019-07-18 16:51:00 412

转载手写分布式爬虫

手写分布式爬虫分布式进程是指将Process进程分布到多台机器上，充分利用多台机器的性能完成复杂的任务。在Python的通过multiprocessing库来完成，该模块不仅支持多进程且还支持将多进程分布到多台机器上。分布式进程就是将把Queue暴露到网络中让其他机器进程可以访问的过程进行了封装，这个过程也称为本地队列的网络化。分布式爬虫服务主要为 6个步骤:　　...

2019-07-16 11:37:00 318

转载 pyppeteer

pyppetter1. 环境安装pip install pyppeteer2. 快速快速上手爬取http://quotes.toscrape.com/js/全部页面数据\import asynciofrom pyppeteer import launchfrom lxml import etreeasync def main(...

2019-07-12 14:52:00 425

转载 Pyhon信息采集 - 喜马拉雅专辑歌曲

目录 Pyhon信息采集 - 喜马拉雅专辑歌曲 Pyhon信息采集 - 喜马拉雅专辑歌曲setting.py# 喜马拉雅URLXMLY_URL = "https://www.ximalaya.com/revision/play/album?albumId=%s&pageNum=%s&...

2019-05-21 16:28:00 140

转载高性能的异步爬虫

目录高性能的异步爬虫一. 同步爬取 1. 普通爬取 2. 线程池爬取二. 异步asyncio基本使用 1. 基本使用 2. task的使用 3. future的使用 ...

2019-05-21 16:25:00 108

转载排序算法

1. 冒泡排序2. 选择排序3. 插入排序4. 希尔排序5. 快速排序转载于:https://www.cnblogs.com/konghui/p/10896082.html

2019-05-20 19:45:00 112

转载顺序表和链表和二叉树

顺序表和链表顺序表集合中存储的元素是有顺序的，顺序表的结构可以分为两种形式：单数据类型和多数据类型。python中的列表和元组就属于多数据类型的顺序表单数据类型顺序表的内存图（内存连续开启）对应的内存空间是连续开辟的顺序表的变量/引用存的的（指向的）是内存空间的首地址...

2019-05-20 19:40:00 497

转载栈和队列

一. 栈特性：先进后出的数据结构栈顶，栈尾应用：每个 web 浏览器都有一个返回按钮。当你浏览网页时，这些网页被放置在一个栈中（实际是网页的网址）。你现在查看的网页在顶部，你第一个查看的网页在底部。如果按‘返回’按钮，将按相反的顺序浏览刚才的页面。Stack() 创建一个空的新栈。它不需要参数，并返回一个空栈。p...

2019-05-20 19:29:00 124

转载 Matplotlib基础知识

Matplotlib基础知识Matplotlib中的基本图表包括的元素x轴和y轴 axis水平和垂直的轴线x轴和y轴刻度 tick刻度标示坐标轴的分隔，包括最小刻度和最大刻度...

2019-05-15 21:31:00 214

转载机器学习之图像识别

# 导包import numpy as npimport matplotlib.pyplot as pltfrom sklearn.neighbors import KNeighborsClassifier查看图片第一步: 创建列表样本第二步: 将列表转为numpy第三步: 获取符合要求的特征数据(二维)第四步...

2019-05-15 21:31:00 8594

转载 pandas - 案例(美国2012年总统候选人政治献金数据分析)

# 提供数据months = {'JAN' : 1, 'FEB' : 2, 'MAR' : 3, 'APR' : 4, 'MAY' : 5, 'JUN' : 6, 'JUL' : 7, 'AUG' : 8, 'SEP' : 9, 'OCT': 10, 'NOV': 11, 'DEC' : 12}parties = { 'Bachmann, Mi...

2019-05-14 16:44:00 447

转载 pandas - 案例(美国各州人口普查)

需求：导入文件，查看原始数据将人口数据和各州简称数据进行合并将合并的数据中重复的abbreviation列进行删除查看存在缺失数据的列找到有哪些state/region使得state的值为NaN，进行去重操作为找到的这些state/region的state项补上正确的值，从而去除掉state这一列的所有NaN合并各州面积数据areas我们会发现area...

2019-05-13 23:00:00 575

转载 pandas - 案例(股票分析)

需求:使用tushare包获取某股票的历史行情数据。输出该股票所有收盘比开盘上涨3%以上的日期。输出该股票所有开盘比前日收盘跌幅超过2%的日期。假如我从2010年1月1日开始，每月第一个交易日买入1手股票，每年最后一个交易日卖出所有股票，到今天为止，我的收益如何?1. 使用tushare包获取某股票的历史行情数据。.2. ...

2019-05-13 23:00:00 355

转载高性能的异步爬虫

目录高性能的异步爬虫一. 同步爬取 1. 普通爬取 2. 线程池爬取二. 异步asyncio基本使用 1. 基本使用 2. task的使用 3. future的使用 ...

2019-05-11 14:40:00 131

转载增量式爬虫

目录增量式爬虫增量式爬虫案例: 爬取4567tv网站中所有的电影详情数据需求：爬取糗事百科中的段子和作者数据。增量式爬虫当我们在浏览相关网页的时候会发现，某些网站定时会在原有网页数据的基础上更新一批数据，例如某电影网站会实时更...

2019-05-04 18:24:00 620

转载基于scrapy-redis两种形式的分布式爬虫

目录基于scrapy-redis两种形式的分布式爬虫基于scrapy-redis两种形式的分布式爬虫1.scrapy框架是否可以自己实现分布式？　　　　- 不可以。原因有二。　　　　　　其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls...

2019-05-04 18:23:00 128

转载 scrapy框架的日志等级和请求传参, 优化效率

目录 scrapy框架的日志等级和请求传参, 优化效率 Scrapy的日志等级请求传参如何提高scripy的爬取效率 scrapy框架的日志等级和请求传参, 优化效率Scrapy的日志等级在使用scrapy cr...

2019-05-04 18:22:00 213

转载 UA池和代理池

目录 UA池和代理池一. 下载代理池 UA池：User-Agent池代理池 UA池和代理池一. 下载代理池下载中间件（Downloader Middlewares）位于scrapy引擎和下载器之间的一层组件。作用：（1）...

2019-05-04 18:22:00 113

转载 Python网络爬虫之Scrapy框架（CrawlSpider）

目录 Python网络爬虫之Scrapy框架（CrawlSpider） CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架（CrawlSpider）提问：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数...

2019-05-04 18:21:00 136

转载 scrapy框架之递归解析和post请求

目录 scrapy框架之递归解析和post请求递归爬取解析多页页面数据五大核心组件工作流程： post请求发送 scrapy框架之递归解析和post请求递归爬取解析多页页面数据需求：将糗事百科所有页码的作者和段子内容数据进行爬取切...

2019-05-04 18:20:00 194

转载 scrapy中selenium的应用

目录 scrapy中selenium的应用 scrapy中selenium的应用1.案例分析：- 需求：爬取网易新闻的国内板块下的新闻数据- 需求分析：当点击国内超链进入国内对应的页面时，会发现当前页面展示的新闻数据是被动态加载出来的，如果直接通过程序对url进行请求，是获取不到动态加载出的新闻数...

2019-05-04 18:19:00 97

转载 scrapy框架持久化存储

目录 scrapy框架持久化存储 1. 基于终端指令的持久化存储 2. 基于管道的持久化存储 3. 将糗事百科首页中的段子和作者数据爬取下来，然后进行持久化存储基于mysql的管道存储基于redis的管道存储如果最终需要将爬取到的数据...

2019-05-04 18:18:00 247

转载 scrapy框架简介和基础应用

目录 scrapy框架简介和基础应用安装基本用法 1.创建项目：scrapy startproject 项目名称 2.创建爬虫应用程序： 3.编写爬虫文件: 4.设置修改settings.py配置文件相关配置: 5.执行...

2019-05-04 18:17:00 151

转载浏览器控制之 selenium,phantomJs谷无头浏览器

目录浏览器控制之 selenium,phantomJs谷无头浏览器 selenium phantomJs 需求是尽可能多的爬取豆瓣网中的电影信息谷歌无头浏览器浏览器控制之 selenium,phant...

2019-05-04 18:16:00 327

转载移动端数据爬取

目录移动端数据爬取移动端抓包工具fiddler 什么是Fiddler 设置相关移动端数据爬取移动端抓包工具fiddler什么是FiddlerFiddler是位于客户端和服务器端的HTTP代理，也是目前最常用的h...

2019-05-04 18:16:00 154

转载图片懒加载技术

目录图片懒加载技术一. 案例分析：抓取站长素材http://sc.chinaz.com/中的图片数据图片懒加载技术一. 案例分析：抓取站长素材http://sc.chinaz.com/中的图片数据#!/usr/bin/env python# -*- codin...

2019-05-04 18:14:00 184

转载验证码处理

目录验证码处理验证码处理云打码平台处理验证码的实现流程：1.对携带验证码的页面数据进行抓取2.可以将页面数据中验证码进行解析，验证码图片下载到本地3.可以将验证码图片提交给三方平台进行识别，返回验证码图片上的数据值云打码平台：1.在官网中进行注册（普通用户和开发者用户）2.登录开发...

2019-05-04 18:13:00 145

转载最快理解 - IO多路复用:select / poll / epoll 的区别.

目录第一个解决方案（多线程）第二个解决方案（select）第三个解决方案（poll）最终解决方案（epoll）客栈遇到的问题从开始学习编程后，我就想开一个 Hello World 餐厅，由于一开始资金不足，所以只能开一个古老的小客栈。客栈运营了...

2019-04-22 22:04:00 113

转载 Golang - 爬虫案例实践

目录 Golang - 爬虫案例实践 1. 爬虫步骤 2. 正则表达式 3. 并发爬取美图 Golang - 爬虫案例实践1. 爬虫步骤明确目标（确定在哪个网址搜索）爬（爬下数据）取（去掉没用的数据）处理数据（按具体业务去使用数...

2019-04-20 19:08:00 209

转载 Django REST framework - 解析器和渲染器

目录 Django REST framework - 解析器和渲染器解析器 Django中的数据解析 DRF中的解析器渲染器 Django REST framework - 解析器和渲染器解析器解析...

2019-04-14 18:34:00 114

转载 Django REST framework - 分页

目录 Django REST framework - 分页 DRF使用分页器 DRF内置分页器 PageNumberPagination LimitOffsetPagination CursorPagination ...

2019-04-14 18:33:00 118

转载 Django - 分页

目录 Django - 分页自定义分页第一版第二版第三版 Django内置分页 Django - 分页自定义分页第一版def publisher_list(request):...

2019-04-14 17:48:00 120

转载 Django - Cookie和Session

目录 Django - Cookie和Session cookie Django中操作Cookie Cookie版登陆校验 Session Django中Session相关方法 Session流程解析 Se...

2019-04-14 17:47:00 126

转载 Django - ORM操作

目录 Django - ORM操作一. 必知必会13条单表查询之神奇的双下划线二. ForeignKey操作正向查找反向操作三. ManyToManyField 四. 聚合查询...

2019-04-14 17:46:00 178

转载 Django - ORM字段和字段参数

目录 Django - ORM字段和字段参数一. Django中的ORM 1. Django项目使用MySQL数据库 2.Model 3.基本用法 Django ORM 常用字段和参数常用字段其他字段...

2019-04-14 17:44:00 165

转载 Golang之路

目录 Golang之路 Golang之路Golang(一) - 开篇必须吹牛逼Golang(二) - 第一个go程序和基本语法Golang(三) - 函数Golang(四) - 流程控制Golang(五) - 复合类型Golang(六) - 面对"对象"Golang(七) - 处理字符串...

2019-04-13 23:58:00 92

转载 Golang - 并发编程

目录 Golang - 并发编程 1. 并行和并发 2. go语言并发优势 3. goroutine是什么 4. 创建goroutine 5. runtime包 6. channel是什么 7. channel的基本使用 ...

2019-04-13 23:47:00 213

转载 Golang - 处理json

目录 Golang - 处理json 1. 编码json 2. 解码json Golang - 处理json1. 编码json使用json.Marshal()函数可以对一组数据进行JSON格式的编码func Marshal(v interface{...

2019-04-13 23:46:00 107

空空如也

空空如也