datuan0188
码龄9年
关注
提问 私信
  • 博客:9,236
    9,236
    总访问量
  • 暂无
    原创
  • 1,431,123
    排名
  • 1
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2016-04-14
博客简介:

datuan0188的博客

查看详细资料
个人成就
  • 获得1次点赞
  • 内容获得0次评论
  • 获得6次收藏
创作历程
  • 4篇
    2019年
  • 27篇
    2018年
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

475人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

记换换回收一个js逆向分析

随着现在对数据的重视程度越来越高,现在各大网站都加强了反爬技术,比如本文中js加密url地址:https://www.huanhuanhuishou.com/gujia/22201.html需要爬取的数据是最高的回收价格:14760经过分析这个数据是ajax发送请求getEvaluateData?goods_id=22201 goods_id是商品的id GET请求...
转载
发布博客 2019.04.23 ·
218 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

mitmproxy 在windows上的使用

mitmproxy 是一个中间件代理, 结合python使用 安装 pip install mitmproxy在windows上没有mitmproxy 所以只要用mitmdump和mitmwdb初次使用的时候要去mitm.it 安装对应系统的证书如果在windows上的谷歌浏览器访问https的连接,需要先把谷歌浏览器关闭,然后--proxy-server=127...
转载
发布博客 2019.01.25 ·
906 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

elasticsearch_dsl 的nested

在工作中会碰到这样的一个需求,mapping中定义的类型是nested{ "judgement":{ "mappings":{ "content":{ "_all":{ "enabled":false }, ...
转载
发布博客 2019.01.16 ·
538 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

利用谷歌插件破解今日头条的新闻ajax参数加密,新手都能懂

最近在学习谷歌插件,想找个项目练练手,就拿今日头条开刀首先访问地址是:https://www.toutiao.com/c/user/50025817786/#mid=50044041847通过抓包发现ajax请求数据的所需要的参数如下图:其中page_type 可以认为是固定的,user_id 可以用页面中提取,count 固定为20,as,cp,_signature是加...
转载
发布博客 2019.01.09 ·
391 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

aiohttp爬虫的模板,类的形式

1 import asyncio 2 import aiohttp 3 import async_timeout 4 from lxml import html 5 from timeit import default_timer as timer 6 7 from db import DBData 8 9 10 cl...
转载
发布博客 2018.12.25 ·
141 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

python从Excel中提取邮箱

从各个城市的律师协会去爬取的律师的招聘信息,可是邮箱在招聘简介里面,所有需要写个脚本去提取邮箱import pandas as pdimport reregex = r"([-_a-zA-Z0-9\.]{0,64}@([-\w]{1,63}\.)*[-a-zA-Z0-9-.]{1,63})"regex_1 = r"([a-zA-Z0-9_.+-]+@[a-pr...
转载
发布博客 2018.11.28 ·
254 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

aiohttp的模板

1 import aiohttp 2 import asyncio 3 import async_timeout 4 from urllib.parse import urljoin,urldefrag 5 6 root_url = 'http://python/org/' # 开始的url 7 crawled_urls,url_hub = [], ...
转载
发布博客 2018.12.25 ·
145 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫的日志,只存7天的日志

如果爬虫在服务器中持续运行,那么日志都会写入到一个文件中,这样不方便管理日志custom_settings = { 'DEFAULT_REQUEST_HEADERS': { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) Ap...
转载
发布博客 2018.10.20 ·
181 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Scrapy-Redis 空跑问题,redis_key链接跑完后,自动关闭爬虫

首先解决爬虫等待,不被关闭的问题:1、scrapy内部的信号系统会在爬虫耗尽内部队列中的request时,就会触发spider_idle信号。2、爬虫的信号管理器收到spider_idle信号后,将调用注册spider_idle信号的处理器进行处理。3、当该信号的所有处理器(handler)被调用后,如果spider仍然保持空闲状态, 引擎将会关闭该spider。scra...
转载
发布博客 2018.10.20 ·
297 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

利用谷歌浏览器断点调试js反向解析,解密

目标网站:https://www.aqistudy.cn/html/city_detail.html点击按钮才会去后台请求数据,第一步:将click打开,第二步:找个后台请求数据的url https://www.aqistudy.cn/apinew/aqistudyapi.php第三步:断点调试,找到找到加密和解密的文件 1 functio...
转载
发布博客 2018.09.28 ·
1524 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

多进程的妙用

1 #coding:utf-8 2 import time 3 import threading 4 from html_downLoader import HtmlDownLoader 5 import ParseAlexa 6 import multiprocessing 7 from MongoQueue import MongoQueue 8 i...
转载
发布博客 2018.10.19 ·
89 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

requests+mongodb爬取今日头条,多进程

1 import json 2 import os 3 from urllib.parse import urlencode 4 import pymongo 5 import requests 6 from bs4 import BeautifulSoup 7 from requests.exceptions import Connectio...
转载
发布博客 2018.09.27 ·
151 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

fake_useragent 封装好user-agent的模块

from fake_useragent import UserAgentuseragent = UserAgent()print(useragent.random)转载于:https://www.cnblogs.com/zhongshuiping/p/9621711.html
转载
发布博客 2018.09.10 ·
364 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

seleniun 爬取淘宝网

1 import re 2 from selenium import webdriver 3 from selenium.common.exceptions import TimeoutException 4 from selenium.webdriver.common.by import By 5 from selenium.webdriver.supp...
转载
发布博客 2018.09.27 ·
157 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

flask数据库的迁移

如果是单纯的用flask去启动app.run()是没有办法想django那样对数据库进行迁移的首先要安装pip install flask-migrate然后修改代码,改变flask的启动方式from flask_migrate import Migrate,MigrateCommandfrom flask_script import Shell,Mana...
转载
发布博客 2018.03.30 ·
103 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

django的验证码

pip install Pillow==3.4.1在views.py中创建一个视图函数from PIL import Image, ImageDraw, ImageFontfrom django.utils.six import BytesIO...def verify_code(request): #引入随机函数模块 import random...
转载
发布博客 2018.03.25 ·
112 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

决策树

决策树的一些优点:易于理解和解释。数可以可视化。几乎不需要数据预处理。其他方法经常需要数据标准化,创建虚拟变量和删除缺失值。决策树还不支持缺失值。使用树的花费(例如预测数据)是训练数据点(data points)数量的对数。可以同时处理数值变量和分类变量。其他方法大都适用于分析一种变量的集合。可以处理多值输出变量问题。使用白盒模型。如果一个情况被观察到,使用逻...
转载
发布博客 2018.06.11 ·
176 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

django模板的变量,标签,过滤器和自定义过滤器,注释

模板的作用是计算并输出:{{ 变量}}当模版引擎遇到点如book.title,会按照下列顺序解析:1.字典book['title']2.先属性后方法,将book当作对象,查找属性title,如果没有再查找方法title()3.如果是格式为book.0则解析为列表book[0]{% 代码段 %}{% for item in list%}循环的逻辑...
转载
发布博客 2018.03.25 ·
120 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

flask的查询,一对多,多对多

模型的关联:一对多class Role(db.Model): us = db.relationship('User',backref='role',lazy='dynamic')class User(db.Model): role_id = db.Column(db.Integer,db.ForeignKey('roles.id'))...
转载
发布博客 2018.03.27 ·
209 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

django的HttpResponse对象

服务器接收到http协议的请求后,会根据报文创建HttpRequest对象,这个对象不需要我们创建,直接使用服务器构造好的对象就可以。视图的第一个参数必须是HttpRequest对象,在django.http模块中定义了HttpRequest对象的API属性下面除非特别说明,属性都是只读的。path:一个字符串,表示请求的页面的完整路径,不包含域名和参数部分。...
转载
发布博客 2018.03.25 ·
175 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多