baobei8212-CSDN博客

转载 python数据分析——数据筛选实例【茅台】

import tushare as tsimport pandas as pdfrom pandas import DataFrame,SeriesIn[3]:df = ts.get_k_data('600519',start='1999-01-01')In[5]:...

2019-09-30 11:40:00 698

转载 python数据分析——处理丢失数据

处理丢失数据有两种丢失数据：Nonenp.nan(NaN)1. NoneNone是Python自带的，其类型为python object。因此，None不能参与到任何计算中。In[1]:#查看None的数据类型2. np.n...

2019-09-30 11:32:00 438

转载 python数据分析——pandas的数据结构

Pandas的数据结构导入pandas：三剑客In[3]:import pandas as pdfrom pandas import Series,DataFrameimport numpy as np1、Series...

2019-09-30 11:30:00 322

转载 python网络爬虫——增量式爬虫

增量式爬虫引言：当我们在浏览相关网页的时候会发现，某些网站定时会在原有网页数据的基础上更新一批数据，例如电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么，类似的情景，当我们在爬虫的过程中遇到时，我们是不是需要定时更新程序以便能爬取到网站中最近更新的数据呢？一.增量式爬虫概念：通过爬虫程序监测某网站数据更新的...

2019-09-29 11:22:00 813

转载 python网络爬虫——分布式爬虫

redis分布式部署- 概念：可以将一组程序执行在多台机器上（分布式机群），使其进行数据的分布爬取。1.scrapy框架是否可以自己实现分布式？　　其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）　　其二：多台机器爬取到的数据无法通过同一个管道对数据进行统一...

2019-09-27 23:15:00 380

转载 python网络爬虫——CrawlSpider

- CrawlSpider 　　- 作用：用于进行全站数据爬取　　- CrawlSpider就是Spider的一个子类　　- 如何新建一个基于CrawlSpider的爬虫文件　　　　- scrapy genspider -t crawl xxx www.xxx.com 　　- 例：choutiPro 　　- LinkExtractor连接提取器：根据指定规则（正则）进行连接...

2019-09-27 16:22:00 158

转载 python网络爬虫——Scrapy中selenium的使用

引入在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加载出的数据，则必须使用selenium创建浏览器对象，然后通过该浏览器对象进行...

2019-09-25 22:20:00 141

转载 python网络爬虫——scrapy核心组件介绍、请求传参、下载中间件

1.五大核心组件工作流程：引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(事务：函数调用、方法触发、类实例化)【框架核心】调度器(Scheduler)用来接受引擎发过来的请求, 【队列】压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 【过滤器】同时去除重复的网址...

2019-09-25 21:56:00 264

转载 python网络爬虫——Scrapy全站数据爬取【手动请求发送】及post请求的发送

- 全站数据爬取1.手动请求发送：- yield scrapy.Request(url,callback)【callback】回调一个函数用于数据解析实例1.爬取阳光网多页面试数据1）.爬虫文件sun.py# -*- coding: utf-8 -*-import scrapyfrom sunLinePro.item...

2019-09-25 16:41:00 296

转载 python网络爬虫——scrapy框架持久化存储

1.基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象（通常为列表or字典）的返回，该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。执行输出指定格式进行存储：将爬取到的数据写入不同格式的文件中进行存储 scrapy crawl 爬虫名称 -o xxx.json scrapy crawl 爬虫名称 -o xxx....

2019-09-24 11:17:00 195

转载 Python网络爬虫——Scrapy框架简介和应用

一.什么是Scrapy？　　Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、各个功能的用法即可。- scrapy：爬虫框架- 具有哪些功能：异步爬取，高性能的数据解析+持久化存储操作- ...

2019-09-23 23:21:00 444

转载 python网络爬虫——Pyppeteer

Pyppeteerpyppeteer模块的基本使用引言Selenium 在被使用的时候有个麻烦事，就是环境的相关配置，得安装好相关浏览器，比如 Chrome、Firefox 等等，然后还要到官方网站去下载对应的驱动，最重要的还需要安装对应的 Python Selenium 库，确实是不是很方便，另外如果要做大规模部署的话，环境配置的一些问题也是个头疼的事情。那么本...

2019-09-23 16:01:00 175

转载 python网络爬虫——单线程+异步协程

-在python3.4之后新增了asyncio模块，可以帮我们检测IO（只能是网络IO【HTTP连接就是网络IO操作】），实现应用程序级别的切换（异步IO）。注意：asyncio只能发tcp级别的请求，不能发http协议。　　- 异步IO：所谓「异步 IO」，就是你发起一个网络IO 操作，却不用等它结束，你可以继续做其他事情，当它结束时，你会得到通知。　　- 实现方式：单线程...

2019-09-23 15:41:00 221

转载 python网络爬虫——selenium

简介　　selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器环境安装下载安装selenium：pip install selenium下载浏览器驱动程序：...

2019-09-20 16:36:00 155

转载 python网络爬虫——requests高阶部分：模拟登录与验证码处理

云打码平台【处理各类验证码的平台】注册:普通用户和开发者用户登录:登录普通用户(查看余额)登录开发者用户:创建一个软件:我的软件->创建软件下载示例代码:开发者中心->下载最新的DLL->pythonHttp示例代码下载一般点击登录按钮的请求都是post请求...

2019-09-20 15:41:00 503

转载 python网络爬虫——xpath

5种反爬机制robots.txt：反爬机制，防君子不防小人UA检测：UA伪装数据加密图片懒加载代理iprequests模块爬取流程：指定url发起请求获取页面数据数据解析持久化存储bs4解析：环境安装：bs4、lxml解析器实例化bs对象，将页面源码数据加载到该对象中定位标签f...

2019-09-19 22:39:00 267

转载 python网络爬虫——正则解析

- re.I # 忽略大小写- re.M # 多行匹配，将正则作用到源数据的每一行- re.S # 单行匹配，将正则作用到整个源数据，输出一个整体字符串（包括换行符也打印）string = '''fall in love with youi love you very muchi love shei love her'''# 去除以i开头的每一行数据re...

2019-09-18 22:19:00 110

转载 Python网络爬虫——bs4基本用法

使用流程：　　-导包：from bs4 import BeautifulSoup　　- 使用方式：可以将一个html文档，转化为BeautifulSoup对象，然后通过对象的方法或属性去查找指定的节点内容。　　　　（1）转化本地文件：　　　　　　- soup = BeautifulSoup（open（‘本地文件’），‘lxml’）　　　　（2）转化网络文件（与requ...

2019-09-18 15:03:00 819

转载 Python网络爬虫——requests模块（1）

- 基于如下5点展开requests模块的学习什么是requests模块requests模块是python中原生的基于网络请求的模块，其主要作用是用来模拟浏览器发起请求。功能强大，用法简洁高效。在爬虫领域中占据着半壁江山的地位。为什么要使用requests模块因为在使用urllib模块的时候，会有诸多不便之处，总结如下：手动处理url编码手...

2019-09-18 14:20:00 139

转载 Python网络爬虫——http和https协议

一.HTTP协议　　1.官方概念：　　　　HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。（虽然童鞋们将这条概念都看烂了，但是也没办法，毕竟这就是HTTP的权威官方的概念解释，要想彻底理解，请客观目移下侧......）　　2.白话概念...

2019-09-18 14:15:00 231

转载 Python网络爬虫——爬虫简介

什么是爬虫爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。爬虫的分类1.通用爬虫：通用爬虫是搜索引擎（Baidu、Google、Yahoo等）“抓取系统”的重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能的；把互联网上的所有的网页下载下来，放到本地服务器里形成备分，在对这些网页做...

2019-09-18 14:14:00 187

转载 python学习——pandas的拼接操作

pandas的拼接操作pandas的拼接分为两种：级联：pd.concat, pd.append合并：pd.merge, pd.join0. 回顾numpy的级联============================================练习1...

2019-09-17 17:23:00 838

转载 python学习——pandas层次化索引

pandas层次化索引1. 创建多层行索引1) 隐式构造最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组Series也可以创建多层索引In[1]:import numpy as npimp...

2019-09-17 15:42:00 514

转载 python学习——pandas数据丢失处理

处理丢失数据有两种丢失数据：Nonenp.nan(NaN)In[1]:import numpy as npIn[12]:%timeit np.arange(0,10000,dtype=int).sum()...

2019-09-16 14:41:00 238

转载 python学习——numpy练习题

import numpy as npIn[9]:#1 创建一个长度为10的一维全为0的ndarray对象，然后让第5个元素等于1n = np.zeros(10)n[4] = 1print(n)[0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]...

2019-09-10 16:04:00 4108

转载 python学习——数据分析

目录：　　1.数据分析模块　　2.数据文件导入　　3.图形绘制　　4.读取数据并可视化分析1.数据分析模块import numpy as nn#一维数组numpy.array([元素1，元素2....，元素n])x = nn.array(['2','3','d','g'])# print(x)#创建二维数组格式numpy.array(...

2019-09-09 17:00:00 108

转载 python学习——协程

阶段内容回顾： 1. socket 2. 浏览器/爬虫等都是socket客户端 3. 到底谁疼？　　- 客户端向服务端发起连接时，服务端疼　　- 客户端向服务端发送数据时，客户端疼（为客户端创建的socket对象）　　conn,addr = server.accept() 　　conn.recv() 4. 如果你想要提高并发？　　- 多进程：计算　...

2019-09-05 14:34:00 112

转载 python学习——进程

知识点回顾：1. GIL锁 2. 进程和线程的区别？　　第一：　　　　进程是cpu资源分配的最小单元。　　　　线程是cpu计算的最小单元。　　第二：　　　　一个进程中可以有多个线程。　　第三：　　　　对于Python来说他的进程和线程和其他语言有差异，是有GIL锁。　　　　GIL锁保证一个进程中同一时刻只有一个线程被cpu调度。注意：...

2019-09-04 16:42:00 114

转载 python学习——锁

1. 锁：Lock (1次放1个)同步锁线程安全，多线程操作时，内部会让所有线程排队处理。如：list/dict/Queue 线程不安全 + 人 => 排队处理。需求： a. 创建100个线程，在列表中追加8 b. 创建100个线程 v = [] 锁 - 把自己的添加到列表中。 - 在读取列表的最后一个。解锁以后锁...

2019-09-04 09:41:00 111

转载 python学习——进程

1. 操作系统/应用程序 a. 硬件 - 硬盘 - CPU - 主板 - 显卡 - 内存 - 电源 ... b. 装系统（软件） - 系统就是一个由程序员写出来软件，该软件用于控制计算机的硬件，让他们之间进行相互配合。 c. 安软件（安装应用程序） -...

2019-09-03 14:42:00 114

转载 python学习——FTP作业

本实例有文件传输相关功能，包括：文件校验、进度条打印、断点续传客户端示例：import socketimport jsonimport osimport hashlibCODE = { '1001':'重新上传文件'}def file_md5(file_path): obj = open(file_path,'rb') ...

2019-09-02 16:04:00 144

转载 python学习——网络基础

1.交换机通过交换矩阵，创建局域网，进行相互之间通信2.mac地址网卡内部带的3.IP地址电脑地址4.socket模块服务端：收发数据->accept/recv 客户端：收发布局->connect/recv5.黏包当服务端同时收到多个数据且每个数据长度小于最大接收数时，服务端无法正确拆分多个数据解决方法：struct模块6...

2019-08-30 09:59:00 95

转载 python学习——阶段总结

1.解释型和编译型编程语言　　编译型：先把代码编译成机器码-->计算机寄存器取运行：c　　　　　　先把代码编译成XXX-->计算机找虚拟机执行代码-->代码变成机器码交给计算机机去运行：c、java、c#　　解释型：边解释边执行：python2. 位和字节的关系：　　8位1个字节3.b、B、KB、MB、GB的关系：　　8b=1B、1024B...

2019-08-29 16:45:00 221

转载 python学习——网络编程

网络编程： a.软件客户端：CS架构 client-->server 浏览器：BS架构 brower-->server b.如何实现相互通信需求1：编写两个软件，软件之间相互通信。需求2：两个人直接连接（网线）需求3：教室相互通信（交换机）总结： 1.相互通信本质发送01010101010...

2019-08-27 15:40:00 97

转载 python学习——约束、自定义异常、加密、日志操作

1.约束类用于约束，约束其派生类：保证派生类中必须编写send方法，不然会报错class BaseMessage(object): def send(self): """ 必须继承BaseMessage，然后其中必须编写send方法。用于完成具体业务逻辑 """ raise NotImplement...

2019-08-26 15:08:00 133

转载 python学习——反射练习

1.类变量和实例变量的区别？类变量：类内定义的变量实例变量：类外定义的变量2.super的作用？调用对象按照调用函数继承类的顺序寻找下一个3.isinstance和type的区别并用代码举例说明isinstance 检查第一个参数（对象）是否时第二个参数（类）的实例class Foo(object):　　　　passobj = Foo()print...

2019-08-21 23:27:00 79

转载 python学习——反射

生成器、迭代器、装饰器、列表生成式、面向对象、反射、1.反射***** getattr v = getattr(obj,'func')#根据字符串(第二参数）为参数，去对象（第一参数）中寻找与之同名的成员2.什么后面可以加()？类（）对象（）--执行__call__ 函数（）方法（）以上所有都可以被调用。通过callab...

2019-08-21 15:30:00 84

转载 python学习——面向对象成员

1.面向对象的变量分为哪几种面向对象的变量：类变量、实例变量类变量（静态字段）：公有类变量（静态字段）私有类变量（私有静态字段）实例变量（字段）公有实例变量（字段）私有实例变量（私有字段）class Foo: country = '中国' # 类变量 def __init__(sel...

2019-08-20 13:40:00 359

转载 python学习——面向对象练习2

1.1-1 封装把功能封装到类中class Message(object): def email(self):pass def msg(self):pass def wechat(self):pass初始化方法，把封装数据给其他方法使用class Dog(object): def __ini...

2019-08-20 11:24:00 106

转载 python学习——面向对象嵌套

'''创建三个学校且三个学校的设施内容都是一直'''class School(object): def __init__(self,name,address): self.name = name self.address = address def speach(self): print('...

2019-08-20 10:25:00 103

空空如也

空空如也