自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

转载 记换换回收一个js逆向分析

随着现在对数据的重视程度越来越高,现在各大网站都加强了反爬技术,比如本文中js加密url地址:https://www.huanhuanhuishou.com/gujia/22201.html需要爬取的数据是最高的回收价格:14760经过分析这个数据是ajax发送请求getEvaluateData?goods_id=22201 goods_id是商品的id GET请求...

2019-04-23 11:54:00 184

转载 mitmproxy 在windows上的使用

mitmproxy 是一个中间件代理, 结合python使用 安装 pip install mitmproxy在windows上没有mitmproxy 所以只要用mitmdump和mitmwdb初次使用的时候要去mitm.it 安装对应系统的证书如果在windows上的谷歌浏览器访问https的连接,需要先把谷歌浏览器关闭,然后--proxy-server=127...

2019-01-25 10:35:00 850

转载 elasticsearch_dsl 的nested

在工作中会碰到这样的一个需求,mapping中定义的类型是nested{ "judgement":{ "mappings":{ "content":{ "_all":{ "enabled":false }, ...

2019-01-16 10:57:00 506

转载 利用谷歌插件破解今日头条的新闻ajax参数加密,新手都能懂

最近在学习谷歌插件,想找个项目练练手,就拿今日头条开刀首先访问地址是:https://www.toutiao.com/c/user/50025817786/#mid=50044041847通过抓包发现ajax请求数据的所需要的参数如下图:其中page_type 可以认为是固定的,user_id 可以用页面中提取,count 固定为20,as,cp,_signature是加...

2019-01-09 17:50:00 339

转载 aiohttp爬虫的模板,类的形式

1 import asyncio 2 import aiohttp 3 import async_timeout 4 from lxml import html 5 from timeit import default_timer as timer 6 7 from db import DBData 8 9 10 cl...

2018-12-25 10:29:00 111

转载 aiohttp的模板

1 import aiohttp 2 import asyncio 3 import async_timeout 4 from urllib.parse import urljoin,urldefrag 5 6 root_url = 'http://python/org/' # 开始的url 7 crawled_urls,url_hub = [], ...

2018-12-25 10:08:00 118

转载 python从Excel中提取邮箱

从各个城市的律师协会去爬取的律师的招聘信息,可是邮箱在招聘简介里面,所有需要写个脚本去提取邮箱import pandas as pdimport reregex = r"([-_a-zA-Z0-9\.]{0,64}@([-\w]{1,63}\.)*[-a-zA-Z0-9-.]{1,63})"regex_1 = r"([a-zA-Z0-9_.+-]+@[a-pr...

2018-11-28 14:13:00 211

转载 爬虫的日志,只存7天的日志

如果爬虫在服务器中持续运行,那么日志都会写入到一个文件中,这样不方便管理日志custom_settings = { 'DEFAULT_REQUEST_HEADERS': { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) Ap...

2018-10-20 11:34:00 147

转载 Scrapy-Redis 空跑问题,redis_key链接跑完后,自动关闭爬虫

首先解决爬虫等待,不被关闭的问题:1、scrapy内部的信号系统会在爬虫耗尽内部队列中的request时,就会触发spider_idle信号。2、爬虫的信号管理器收到spider_idle信号后,将调用注册spider_idle信号的处理器进行处理。3、当该信号的所有处理器(handler)被调用后,如果spider仍然保持空闲状态, 引擎将会关闭该spider。scra...

2018-10-20 10:53:00 251

转载 Python 资源大全中文版

# Python 资源大全中文版我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列的资源整理。[awesome-python](https://github.com/vinta/awesome-python) 是 vinta 发起维护的 Python 资源列表,内容包括:Web 框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处...

2018-10-19 11:41:00 1664

转载 多进程的妙用

1 #coding:utf-8 2 import time 3 import threading 4 from html_downLoader import HtmlDownLoader 5 import ParseAlexa 6 import multiprocessing 7 from MongoQueue import MongoQueue 8 i...

2018-10-19 10:49:00 69

转载 利用谷歌浏览器断点调试js反向解析,解密

目标网站:https://www.aqistudy.cn/html/city_detail.html点击按钮才会去后台请求数据,第一步:将click打开,第二步:找个后台请求数据的url https://www.aqistudy.cn/apinew/aqistudyapi.php第三步:断点调试,找到找到加密和解密的文件 1 functio...

2018-09-28 11:12:00 1397

转载 requests+mongodb爬取今日头条,多进程

1 import json 2 import os 3 from urllib.parse import urlencode 4 import pymongo 5 import requests 6 from bs4 import BeautifulSoup 7 from requests.exceptions import Connectio...

2018-09-27 17:19:00 124

转载 seleniun 爬取淘宝网

1 import re 2 from selenium import webdriver 3 from selenium.common.exceptions import TimeoutException 4 from selenium.webdriver.common.by import By 5 from selenium.webdriver.supp...

2018-09-27 16:48:00 136

转载 fake_useragent 封装好user-agent的模块

from fake_useragent import UserAgentuseragent = UserAgent()print(useragent.random)转载于:https://www.cnblogs.com/zhongshuiping/p/9621711.html

2018-09-10 18:32:00 329

转载 决策树

决策树的一些优点:易于理解和解释。数可以可视化。几乎不需要数据预处理。其他方法经常需要数据标准化,创建虚拟变量和删除缺失值。决策树还不支持缺失值。使用树的花费(例如预测数据)是训练数据点(data points)数量的对数。可以同时处理数值变量和分类变量。其他方法大都适用于分析一种变量的集合。可以处理多值输出变量问题。使用白盒模型。如果一个情况被观察到,使用逻...

2018-06-11 14:17:00 146

转载 flask数据库的迁移

如果是单纯的用flask去启动app.run()是没有办法想django那样对数据库进行迁移的首先要安装pip install flask-migrate然后修改代码,改变flask的启动方式from flask_migrate import Migrate,MigrateCommandfrom flask_script import Shell,Mana...

2018-03-30 14:56:00 75

转载 flask的查询,一对多,多对多

模型的关联:一对多class Role(db.Model): us = db.relationship('User',backref='role',lazy='dynamic')class User(db.Model): role_id = db.Column(db.Integer,db.ForeignKey('roles.id'))...

2018-03-27 09:44:00 183

转载 django的验证码

pip install Pillow==3.4.1在views.py中创建一个视图函数from PIL import Image, ImageDraw, ImageFontfrom django.utils.six import BytesIO...def verify_code(request): #引入随机函数模块 import random...

2018-03-25 17:06:00 79

转载 django模板的变量,标签,过滤器和自定义过滤器,注释

模板的作用是计算并输出:{{ 变量}}当模版引擎遇到点如book.title,会按照下列顺序解析:1.字典book['title']2.先属性后方法,将book当作对象,查找属性title,如果没有再查找方法title()3.如果是格式为book.0则解析为列表book[0]{% 代码段 %}{% for item in list%}循环的逻辑...

2018-03-25 17:01:00 101

转载 cookie和session

http的请求是一词无状态的连接,例如你访问index页面的请求和访问user页面的请求是没有数据保存和传递,所以一个网站的所有人的购物车或者用户的页面都是一样的,这个时候请求状态的保持就显的很重要,所有就有了cookie和session,cookie只要是用来保存一些安全的数据,比如用户名等等,对于一些不安全的数据,比如密码就需要保存在服务器的session中,在djang...

2018-03-25 16:43:00 48

转载 django的HttpResponse对象

服务器接收到http协议的请求后,会根据报文创建HttpRequest对象,这个对象不需要我们创建,直接使用服务器构造好的对象就可以。视图的第一个参数必须是HttpRequest对象,在django.http模块中定义了HttpRequest对象的API属性下面除非特别说明,属性都是只读的。path:一个字符串,表示请求的页面的完整路径,不包含域名和参数部分。...

2018-03-25 16:32:00 145

转载 django视图

视图的功能:负责接收Web请求HttpRequest,进行逻辑处理,返回响应HttpResponse给请求者在创建好自己的应用之后,在应用下的views.py中定义视图在视图中编写代码的方式只要有二种,cbv和fbv,cbv是django官方推荐的,他更加的体现了面向对象的思想,这里只要是介绍fbv的写法在view.py中定义视图def index(request...

2018-03-25 16:24:00 47

转载 模型类关系

关系型数据库的关系包括三种类型:ForeignKey:一对多,将字段定义在多的一端中。ManyToManyField:多对多,将字段定义在任意一端中。OneToOneField:一对一,将字段定义在任意一端中。可以维护递归的关联关系,使用'self'指定,详见"自关联"。关联查询通过对象执行的关联查询一对多的访问语法:一对应的模型对象.多对应的模型类的...

2018-03-24 20:26:00 121

转载 django的查询集

查询集表示从数据库中获取的对象集合,在管理器上调用某些过滤器方法会返回查询集,查询集可以含有零个、一个或多个过滤器。过滤器基于所给的参数限制查询的结果,从Sql的角度,查询集和select语句等价,过滤器像where和limit子句。模型管理器的方法返回查询集的方法如下all():返回所有数据。filter():返回满足条件的数据。exclude():返回满足条件之外...

2018-03-24 20:16:00 67

转载 django模型的字段查询

条件运算符exact: 查判等list=BookInfo.objects.filter(id__exact=1)可简写为:list=BookInfo.objects.filter(id=1)模糊查询:是否包含 containslist = BookInfo.objects.filter(btitle__contains='传')starts...

2018-03-24 20:09:00 122

转载 django的模型和基本的脚本命令

python manage.py startproject project_name 创建一个django项目python manage.py startapp app_name 创建一个app的应用python manage.py makemigrations (app_name) 如果不加app_name 就会把整个django的文件都迁移python manage....

2018-03-24 20:00:00 144

转载 flask的自定义过滤器

过滤器的本质是函数。当模板内置的过滤器不能满足需求,可以自定义过滤器。自定义过滤器有两种实现方式:一种是通过Flask应用对象的add_template_filter方法通过装饰器来实现自定义过滤器重要:自定义的过滤器名称如果和内置的过滤器重名,会覆盖内置的过滤器。方式一def do_filterdoublesort(ls): #自定义一个方法 ...

2018-03-24 19:49:00 82

转载 flask过滤器

过滤器的本质就是函数。有时候我们不仅仅只是需要输出变量的值,我们还需要修改变量的显示,甚至格式化、运算等等,而在模板中是不能直接调用 Python 中的某些方法,那么这就用到了过滤器。过滤器的使用方式为:变量名 | 过滤器。{{ var | reverse}} 对var进行反转jinja2的模板语言是支持链式调用的,比如{{ "hello world" | ...

2018-03-24 19:39:00 164

转载 flask的模板

flask用的是jinja2的模板模板其实是一个包含响应文本的文件,其中用占位符(变量)表示动态部分,告诉模板引擎其具体的值需要从使用的数据中获取使用真实值替换变量,再返回最终得到的字符串,这个过程称为“渲染”Flask是使用Jinja2这个模板引擎来渲染模板使用模板的好处:视图函数只负责业务逻辑和数据处理(业务逻辑方面)而模板则取到视图函数的数据...

2018-03-24 19:29:00 45

转载 flask钩子

请求钩子 从请求到响应的过程中,设置了一些方法来实现某些功能before_first_request 在处理第一个请求前运行before_request 在每次请求前运行after_request 在每次请求后运行teardown_request 有未处理的异常的时候抛出@app.before_requestdef first():...

2018-03-24 19:13:00 106

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除