python
文章平均质量分 60
favomj
吃枣药丸
展开
-
pytho3.6 + opencv3 错误记录
背景:win10 + pytho3.6 + opencv3 + anaconda问题:使用model = cv2.face.createEigenFaceRecognizer()AttributeError: module 'cv2.face' has no attribute 'createEigenFaceRecognizer'解决:第一步:卸载原有环境pip u原创 2017-11-27 22:08:03 · 2610 阅读 · 0 评论 -
linux intellij docker使用
先停止dockersystemctl stop dockerdockerd -H tcp://0.0.0.0:2375在Intellij的Docker中使用tcp sockettcp://127.0.0.1:2375原创 2018-03-26 16:26:22 · 605 阅读 · 0 评论 -
scarp 使用IP代理
在middlewares中ip代理的获取爬虫https://github.com/favoMJ/ippool# -*- coding: utf-8 -*-# Define here the models for your spider middleware## See documentation in:# http://doc.scrapy.org/en/latest/topics/sp...原创 2018-04-14 21:50:56 · 514 阅读 · 0 评论 -
scrapy 速度优化
主要有三个设置项来控制下载器的容量:CONCURRENT_REQUESTS,CONCURRENT_REQUESTS_PER_DOMAIN和 CONCURRENT_REQUESTS_PER_IP。第一个设置项提供了一个粗略的控制,无论如何不会有超过CONCURRENT_REQUESTS数目的请求被并发下载。在另一方面,如果你的目标域名只是一个或者少数的几个,那么CONCURRENT_REQUESTS...原创 2018-04-14 22:05:58 · 5324 阅读 · 0 评论 -
ip 代理池的获取
没充钱只能捡捡别人剩下的,,,拿着别人免费的ip一个个试吧,可行率极低,,,在http://www.xicidaili.com/nt/上爬取ip附上其他还不错的网站:http://www.66ip.cn/http://www.coobobo.com/http://cn-proxy.com/https://www.kuaidaili.com/free/inha/在http://2017.ip138....转载 2018-04-03 21:11:07 · 589 阅读 · 0 评论 -
flask 返回json并且不排序
使用josnify会自动排序,直接返回json可能type不对应return Response(json.dumps(),mimetype='application/json')原创 2018-05-16 20:17:44 · 2711 阅读 · 0 评论 -
引号化
碰上形如[{name:'123'},{name:'23'}]情形使用eval(re.sub("(\w*):", r"'\1':", info2['li']))将name引号化变为[{'name':'123'},{'name':'23'}]从fiddler中取出的无引号data使用(.*):(.*)替换为'\1':\2'即可完成dict转换...原创 2019-04-25 19:21:59 · 105 阅读 · 0 评论 -
vjudge自动登录+创建比赛
import requestsimport timeimport jsonimport urllib3from urllib3.exceptions import InsecureRequestWarningurllib3.disable_warnings(InsecureRequestWarning)session = requests.session()def create...原创 2019-04-25 14:47:24 · 2993 阅读 · 0 评论 -
python 迭代器
python2的zip(a,b)直接是生成一个新的list,也就是说,把a,b拼在一起,然后全部载入内存。这是非常耗内存的。但是python3已经改变了这种做法,python3生成的是可迭代的对象,并不是直接生成一个完整的list。降低内存的使用率。关于迭代器的释放 QUIZE = zip(ANS, SCORE) print(list(QUIZE)) print(list(Q...原创 2018-03-18 12:03:15 · 143 阅读 · 0 评论 -
代理ip池
代理ip池from bs4 import BeautifulSoup +from selenium import webdriver +import subprocess as sp +from lxml import etree +import requests +import random +import re + +""" +函数说明:获取IP代理 +Parameters...转载 2018-03-04 20:14:05 · 473 阅读 · 0 评论 -
selenium 解决 SSL问题
在用selenium 进入12306时碰到的不受信任问题,网上查了是SSL问题大部分解决方案是from requests.packages.urllib3.exceptions import InsecureRequestWarning # 禁用安全请求警告 requests.packages.urllib3.disable_warnings(InsecureRequestWarning)但是...原创 2017-11-12 23:15:00 · 5252 阅读 · 0 评论 -
python 京东登陆抢卷
python 京东登陆抢卷原创 2017-11-08 17:15:53 · 3208 阅读 · 3 评论 -
驾校自动预约
import datetimeimport requestsimport timefrom requests_toolbelt import MultipartEncoders = requests.session()s.verify = Falseheader = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWeb原创 2017-12-21 19:23:30 · 958 阅读 · 2 评论 -
python multipart 类型 和 后台运行py
python后台运行nohup python -u myscript.py params1 > nohup.out 2>&1 & 对于multipart类型的content_typefrom requests_toolbelt import MultipartEncodermultipart_encoder = MultipartEncoder({ '原创 2017-12-24 12:25:24 · 699 阅读 · 0 评论 -
12306 下单
自己做的一点点抓包流程总结具体代码可以参考我的github:https://github.com/favoMJ/12306登录:略1 取得参数:_from ,_to 初始地,目的地 对应编号d,日期2 设置cookies:from_station = quote(self.get_code_by_input(_from) + ',' + _from).r原创 2017-12-03 17:09:07 · 1749 阅读 · 0 评论 -
tensoflow实现最简单的分类
import numpy as npimport tensorflow as tfimport randomimport picklefrom collections import Counterimport nltkfrom nltk.tokenize import word_tokenizedef loadDataSet(): postingList=[['my',原创 2018-01-30 16:25:07 · 492 阅读 · 0 评论 -
挖掘新词
理论:http://www.matrix67.com/blog/archives/5044代码参考:https://github.com/yanghanxy/New-Word-Detectionimport codecsimport reimport pandas as pdimport mathclass WordInfo(object): def __init__(self,...原创 2018-02-26 21:20:27 · 452 阅读 · 0 评论 -
python B站 滑动验证码破解(极验)
代码基本参考:http://cuijiahua.com/blog/2017/11/spider_2_geetest.html流程:首先通过网页分析得到网页图片区域用selenium进入页面,采取图片简单分析一下,得出缺口位置(应该也没人恶意爬取B站=,=,所以比较简单)将图片按规律进行拼接(这个得自己看几张,不难,代码中也有体现,但最好自己分析下)模拟人进行移动,为了避免被认为是机器,采用先快后慢...原创 2018-03-06 20:43:57 · 9061 阅读 · 3 评论 -
监控网页浏览内容
思路:不断访问chrome的历史记录,得到浏览内容,如果不在限定范围,则发送截图和url给服务器服务器端#!/usr/bin/env python# coding:utf-8import socketimport timedef handle_request(client): buf = client.recv(1024) print(buf)de...原创 2018-03-02 12:30:21 · 2292 阅读 · 0 评论 -
scrapy 根据参数爬取
运行方式:cmdline.execute('scrapy crawl keyspider -a 参数'.split())Spider类初始化 def __init__(self, keyword=None, *args, **kwargs): super(参数, self).__init__(*args, **kwargs) self.参数 = 参数 ...原创 2018-02-25 17:15:58 · 1193 阅读 · 2 评论 -
爬取微舆情
发现一个302的问题解决:1.把fiddler中的raw和headers和自己的拿出来一一比较,找出不同2.看是否有必要的流程要走3.设置allow_redirects = False代码就不贴了。...原创 2019-04-25 17:19:01 · 778 阅读 · 0 评论