dhydhy123456789-CSDN博客

转载 day1

input your name: roseTraceback (most recent call last): File "D:/pycharm/python2_day1/hello_world.py", line 6, in <module> value = input('input your name: ') File "<string...

2019-03-11 15:00:00 114

转载算法1

算法算法被称为程序的灵魂，指程序的执行过程。程序 = 数据结构+算法时间复杂度对算法执行时间长短的一种度量。如何简单快速地对时间复杂度进行度量绝大多数情况：确定问题规模循环减半过程---》lognk层循环嵌套—》nk复杂情况：根据算法执行过程判断空间复杂度评估算法占用内存大小。随着内存空间的不断增长，空间复杂度越来越不是神魔大的问题。...

2018-12-10 17:40:00 112

转载 scrapy之分布式

分布式爬虫概念：多台机器上可以执行同一个爬虫程序，实现网站数据的分布爬取。原生的scrapy是不可以实现分布式爬虫？　　　　a)调度器无法共享　　　　b)管道无法共享工具scrapy-redis组件:专门为scrapy开发的一套组件。该组件可以让scrapy实现分布式。a)下载：pip install scrapy-redis分布式爬取的流程...

2018-11-28 22:02:00 140

转载 CrawlSpider

CrawlSpider问题：如果我们想要对某一个网站的全站数据进行爬取？解决方案：手动请求的发送CrawlSpider（推荐）CrawlSpider概念：CrawlSpider其实就是Spider的一个子类。CrawlSpider功能更加强大（链接提取器，规则解析器）。代码流程：创建一个基于CrawlSpider的爬虫文件　　...

2018-11-28 21:51:00 75

转载请求传参

应用场景需要用到请求传参的地方：爬取的数据值不在同一个页面中。示例需求：将id97电影网站中电影详情数据进行爬取（名称，类型，导演，语言，片长）# -*- coding: utf-8 -*-import scrapyfrom moviePro.items import MovieproItemclass MovieSpider(scrapy.Sp...

2018-11-28 21:38:00 342

转载 cookie操作和代理

cookie操作爬取豆瓣个人主页# -*- coding: utf-8 -*-import scrapyclass DoubanSpider(scrapy.Spider): name = 'douban' #allowed_domains = ['www.douban.com'] start_urls = ['https://ww...

2018-11-28 17:28:00 262

转载发起post请求

　　之前我们一直使用的都是get请求，但是我们也并没有指定。那是因为，当引擎检测到start_urls里面的url时会自动触发事务，发起start_requests()请求，这个默认就是get请求。所以需要重写这个方法。不多说，直接看代码# -*- coding: utf-8 -*-import scrapy#需求：百度翻译中指定词条对应的翻译结果进行获取...

2018-11-28 16:14:00 210

转载 scrapy核心组件

scrapy核心组件引擎（ScrapyEngine）　　用于整个系统的数据流处理，触发事务（框架的核心）调度器（schedule）　　用于接收引擎发送过来的请求，压入队列中，并在引擎再次请求的时候返回，可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址。下载器（downloader）　　用于下载...

2018-11-28 15:52:00 134

转载爬取多个url页面数据--手动实现

# -*- coding: utf-8 -*-import scrapyfrom qiubaiByPages.items import QiubaibypagesItemclass QiubaiSpider(scrapy.Spider): name = 'qiubai' #allowed_domains = ['www.qiushibaike.co...

2018-11-28 15:37:00 972

转载 scrapy之持久化存储

持久化存储的两种方式1基于磁盘文件存储基于终端指令　　基于终端指令需要注意两点：保证parse方法返回一个可迭代类型的对象（存储解析到的页面内容）使用终端指令完成数据存储到制定磁盘文件中的操作　　scrapy crawl 爬虫文件名称 –o 磁盘文件.后缀# -*- coding: utf-8 -*-import scrapy...

2018-11-28 11:31:00 176

转载 selenium + phantomJs

这篇文章应该写在scrapy框架之前，在此作为补充问题：如何对动态加载的页面数据进行爬取？解决方式有两个：1.selenium2.phantomJsselenium简介：三方库，可以实现让浏览器完成自动化的操作。环境搭建安装：pip install selenium获取浏览器驱动程序　　下载地址http://chromedriver.stora...

2018-11-28 10:42:00 99

转载 scrapy框架简介和基础使用

概念　　为了爬取网站数据而编写的一款应用框架，出名，强大。所谓的框架其实就是一个集成了相应的功能且具有很强通用性的项目模板。（高性能的异步下载，解析，持久化……）安装linux mac os:pip install scrapywin:pip install wheel下载twisted：https://www.lfd.uci.edu/~gohlke/pyth...

2018-11-27 10:43:00 63

转载校验验证码实现登录验证

验证码处理方式1.手动处理2.云打码平台自动识别验证码实现流程： -1.对携带验证码的页面数据进行抓取 -2.可以将验证码图片进行解析，验证码图片下载到本地 -3.将验证码图片交给第三方进行识别，返回验证码图片上的值 -云打码平台 1.进行注册注册普通用户和开发者用户 2.登录开...

2018-11-26 21:09:00 1218

转载 beautifulsoup解析

beautifulsoup解析python独有优势：简单、便捷、高效- 环境安装需要将pip源设置为国内源-需要安装：pip install bs4 bs4在使用时需要一个第三方库 pip install lxml流程：核心思想：可以将html文档转换成Beautiful对象，然后调用对象属性和方法进行html指定内容的定位和查找1.导包...

2018-11-22 16:18:00 144

转载 xpath

xpath知识储备-1.下载：pip install lxml -2.导包：from lxml import etree -3.创建etree对象进行指定对象的解析 -本地：etree=etree.parse('本地文件路径') etree.xpath('xpath表达式') -网络：etree=etree.parse(...

2018-11-22 16:09:00 72

转载数据解析

数据解析流程1.指定url2.发起请求3.获取页面数据4.解析数据5.持久化存储三种数据解析方式：正则，xpath，bs4正则import re# 提取出pythonkey = 'javapython-php're.findall('python',key)re.findall('python',key)[0]# 提取he...

2018-11-22 15:54:00 89

转载 requests模块高级

requests模块高级cookiecookie：基于用户的用户数据 -需求：爬取用户的豆瓣网的个人页面数据cookie作用：服务器端使用cookie来记录客户端的状态信息实现流程： 1.执行登录操作（获取cookie） 2.再发起个人主页请求时，需要将cookie携带到该请求中注意：session对象：发送请求（会将cookie对...

2018-11-22 15:41:00 47

转载 requests

requestsrequests模块在处理爬虫更加高效，快捷。基于request发起get请求需求：爬取搜狗首页的数据import requests# 1.指定urlurl = 'https://www.sogou.com/'#2发起get请求:get方法会返回请求成功的响应对象response = requests.get(url=url)...

2018-11-21 09:27:00 56

转载 urllib

urllibpython中自带的一个基于爬虫的模块。作用：可以使用代码模拟浏览器发起请求。常用的有 request、 parse - 使用流程：　　- 指定url 　　- 发起请求　　- 获取页面数据　　- 持久化存储# 需求：爬取搜狗首页的页面数据import urllib.request#...

2018-11-20 11:32:00 55

转载爬虫初入

什么是爬虫？爬虫就是通过编写程序模拟浏览器上网，然后让其去互联网上抓取数据的过程。爬虫的分类通用爬虫　　通用爬虫是搜索引擎“抓取系统”的重要组成部分，主要目的是将互联网上的内容下载到本地，形成一个互联网内容的镜像备份。简单来讲就是尽可能将网页下载到本地服务器进行备份，再对这些内容进行处理，最后提供一个用户检索接口。聚焦爬虫　　根据指定需求抓取互联网上指定的数据。...

2018-11-15 11:18:00 77

转载 Django之admin

admin 站点　　Django最强大的部分之一是自动管理界面。它从您的模型中读取元数据，以提供快速，以模型为中心的界面，受信任的用户可以在其中管理您网站上的内容。管理员的建议用途仅限于组织的内部管理工具。它不是用于构建整个前端。管理员有许多用于自定义的钩子，但要注意尝试专门使用这些钩子。如果您需要提供一个更加以流程为中心的接口来抽象出数据库表和字段的实现细节，那么可能是...

2018-11-15 10:21:00 78

转载 Django之FileField字段

头像上传在头像上传的时候，属于文件类型首先视图函数获取的时候，request.FILES.get('文件名变量')avatar_obj = request.FILES.get('avatar')model.objects.create_user(username=name,password=pwd,...,,avatar=avatar_obj)　　此时，Django就...

2018-11-13 17:55:00 2035

转载边学边练之博客园----登录验证

图形验证码# 图形验证码def get_valid_code_img(request): import random def get_random_color(): return (random.randint(0, 255), random.randint(0, 255), random.randint(0, 255)) ...

2018-11-13 11:14:00 136

转载边学边练之博客园----设计表

1 from django.db import models 2 3 # Create your models here. 4 from django.db import models 5 from django.contrib.auth.models import AbstractUser 6 7 8 # Create your models h...

2018-11-13 11:03:00 64

转载 Django之中间件

生命请求周期中间件概念　　中间件顾名思义，是介于request与response处理之间的一道处理过程，相对比较轻量级，并且在全局上改变django的输入与输出。因为改变的是全局，所以需要谨慎实用，用不好会影响到性能。如果你想修改请求，例如被传送到view中的HttpRequest对象。或者你想修改view返回的HttpResponse对象，这些都可以通过中间件来实...

2018-11-12 13:03:00 50

转载 Django之用户认证

用户认证组件简介功能：用session记录登录验证状态前提：必须使用django自带的auth_user表。那这里有的同学就会有疑问了，自己不能创建自己的用户表吗？　　当然可以，用户认证组件虽然只针对auth_user表，但是我们可以通过继承或者OneToOne进行联系。我们可以先创建一个用户，以便测试，python终端的创建超级用户命令 python manage.py...

2018-11-12 09:54:00 122

转载 Django之cookie、session

会话跟踪技术可以把会话理解为客户端与服务器之间的一次会晤，在一次会晤中可能会包含多次请求和响应。一次会话过程中，我们应该注意的是什么呢？　　那就是，一些操作要保证用户操作的是用户自己个人的数据。举个例子来说，你会希望你的账户里的钱被别人转走吗？相反，你会希望自己的账户多增加一些余额。这就是会话跟踪的必要性。我们知道HTTP协议是无状态协议，也就是说每个请求都是独立的！...

2018-11-11 17:06:00 50

转载 Django之Forms组件

froms组件校验字段校验字段是forms组件最重要的功能。以用户注册为例模型class UserInfo(models.Model): name=models.CharField(max_length=32) pwd=models.CharField(max_length=32) email=models.EmailField()...

2018-11-10 22:40:00 81

转载 Django之分页

分页器paginator准备工作分页器使用前，先导入，顺便导入页面为空和页码不是整数异常from django.core.paginator import Paginator, EmptyPage, PageNotAnInteger简单示范以之前book表为例 book_list=Book.objects.all() paginat...

2018-11-10 15:04:00 74

转载 Django之ajax

Ajax简介　　AJAX（Asynchronous Javascript And XML）翻译成中文就是“异步Javascript和XML”。即使用Javascript语言与服务器进行异步交互，传输的数据为XML（当然，传输的数据不只是XML,现在更多使用json数据）。　　AJAX除了异步的特点外，还有一个就是：浏览器页面局部刷新；（这一特点给用户的感受是在不知不觉中完成请求和...

2018-11-10 10:30:00 65

转载 F查询与Q查询

F查询如果我们要对两个字段的值做比较，那该怎么做呢？Django 提供 F() 来做这样的比较。F() 的实例可以在查询中引用字段，来比较同一个 model 实例中两个不同字段的值。# 查询评论数大于收藏数的书籍 from django.db.models import F Book.objects.filter(commnetNum__gt=F('...

2018-11-09 21:35:00 110

转载 Django之模型---ORM 多表操作

多表操作创建表模型 1 from django.db import models 2 3 # Create your models here. 4 5 6 clas...

2018-11-09 17:51:00 70

转载 Django之模型---ORM 单表操作

以上一随笔中创建的book表为例讲解单表操作添加表记录方式一# create方法的返回值book_obj就是插入book表中的python葵花宝典这本书籍纪录对象 book_obj=Book.objects.create(title="python葵花宝典",state=True,price=100,publis...

2018-11-09 15:12:00 63

转载 Django之模型---ORM简介

ORM　　ORM，是“对象-关系-映射”的简称，它实现了数据模型与数据库的解耦，即数据模型的设计不需要依赖于特定的数据库，通过简单的配置就可以轻松更换数据库，这极大的减轻了开发人员的工作量，不需要面对因数据库变更而导致的无效劳动。创建表/模型创建项目，在models.py下创建表 1 from django.db import models 2 3 ...

2018-11-09 14:40:00 81

转载自定义模板标签和过滤器

1.在settings的INSTALLED_APPS下配置app，否则找不到自定义的simple_tag2.在app中创建名为tamplatetags的模块，注意：模块名只能是templatetags3.在模块下创建任意.py文件，如my_tags.pyfrom django import templatefrom django.utils.safestring im...

2018-11-09 14:21:00 117

转载 Django之模板

　　模板就是展示给用户的网页，其中包含的可变数据就是在数据库中获取的。模板语法之变量句点符 {{var}}在views视图函数中传递数据给模板，就可以在模板中以句点符获取def index(request): import datetime s="hello" l=[111,222,333] # 列表 dic={"n...

2018-11-08 22:54:00 56

转载 Django之视图

视图　　一个视图函数，简称视图，是一个简单的Python 函数，它接受Web请求并且返回Web响应。响应可以是一张网页的HTML内容，一个重定向，一个404错误，一个XML文档，或者一张图片. . . 是任何东西都可以。无论视图本身包含什么逻辑，都要返回响应。代码写在哪里也无所谓，只要它在你的Python目录下面。除此之外没有更多的要求了——可以说“没有什么神奇的地方”。为了将代码放...

2018-11-08 18:13:00 40

转载 Django之URL

URL是用户请求路径与views视图处理函数的一个映射简单的路由配置及实现这里是pycharm编辑开发为例，新建的django项目，会在url.py下自动生成这样一段代码：1 from django.contrib import admin2 from django.urls import path3 4 urlpatterns = [5 pa...

2018-11-08 16:04:00 143

转载 Django简介

MVC模式　　MVC全名是Model View Controller，是模型(model)-视图(view)-控制器(controller)的缩写，一种软件设计典范，用于组织代码用一种业务逻辑和数据显示分离的方法，这个方法的假设前提是如果业务逻辑被聚集到一个部件里面，而且界面和用户围绕数据的交互能被改进和个性化定制而不需要重新编写业务逻辑，MVC被独特的发展起来用于映射传统的输入、处...

2018-11-08 14:42:00 92

转载 http协议

简介http协议工作于浏览器端-服务器端架构为上。浏览器作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求。Web服务器根据接收到的请求后，向客户端发送响应信息。特点1.基于TCP/IP协议2.基于请求-响应模式浏览器端发出请求，服务器端做出响应。3.无状态保存http自身不对请求和响应之间的通信数据进行保存，方便处理大量的业务。4.无...

2018-11-08 12:07:00 101

空空如也

空空如也