python
大佬请带带我
这个作者很懒,什么都没留下…
展开
-
scrapy-splash学习
材料清单dockerscrapy当我们经常遇到js加载的页面,用scrapy来抓取其实挺麻烦的。Splash是做来加载渲染后的页面,可以支持scrapy使用。由于Splash和Scrapy都支持异步处理,而Selenium的对接过程中每个页面渲染下载过程是在Downloader Middleware里面完成的,所以整个过程是堵塞式的,Scrapy会等待这个过程完成后再继续处理和调度其他请求...原创 2019-09-30 18:26:21 · 415 阅读 · 0 评论 -
pycharm解决关闭flask后依旧可以访问服务
这种问题一般是退出flask服务时选择了disconected而不是选择terminate,dicconected是一种伪断开,只是在pycharm这里中止了,但是python解释器依旧在运行这个服务。默认选项是ask,但是一般情景下,我们退出的话应该是关闭程序,而不是缩小化到托盘,所以更改上图的默认设置为退出该进程。如果已经手贱点了disconnect,那么一种好方法是直接在任...原创 2019-09-04 09:10:09 · 18098 阅读 · 1 评论 -
python一些常用代码块
centos下 python3无法print中文UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 0-10: ordinal not in range(128这类问题多来源于python控制台的编码问题,进入python环境>>> import sys>>> s...原创 2019-07-18 08:55:31 · 397 阅读 · 0 评论 -
阿里系纯滑块验证码破解思路
本文旨在经验交流,如若侵犯利益,请联系删除。组团购买阿里云2019.09.10下面的例子已经改为阿里的人机认证了,但是其实用selenium启动浏览器后,依旧可以用pynput来操控键鼠来完成模拟操作,单纯调用send_keys()和click()都会被识别出来了。webdriver参数太多了,有兴趣的可以考虑puppeteer来实现。阿里系滑块验证码以nc_1开头,通过调用XXX...原创 2019-06-21 09:36:30 · 40769 阅读 · 23 评论 -
python代理池搭建
熟悉爬虫的,必定会熟悉各种反爬机制。今天就讲一下自己如何建立ip代理池的。一个合格的代理池必须拥有一个爬取代理IP的爬取器、一个验证IP可否使用的校验器、一个存储IP的数据库、调用这些的调度器以及可以供获取IP的接口(这里推荐flask,比较简单)。先来说说爬取器,首先要爬取的代理IP网站尽量是无需登录的,其次是对代理IP更新较快的,前者加快代理池的效率,后者增加代理池的质量。这里我对市面...原创 2019-05-06 14:34:20 · 6805 阅读 · 4 评论 -
python关于验证码
对于爬虫而言验证码是一定要经过的坎,对于网站开发而言,验证码有着大量生成方法,网站开发者为了应对爬虫以及方便用户阅读,都会有自己的一套方法。这里介绍了python PIL生成验证码的一种通用方法。import randomfrom PIL import Image, ImageDraw, ImageFont, ImageFilterimport numpy as np_letter_c...原创 2019-04-20 16:46:48 · 181 阅读 · 0 评论 -
python bytes和str转换
bytes 转换为 strstr(b,encoding="utf-8")str(b,encoding="gbk")encoding中写的是原来byte变量的编码什么类型的编码的字节就要转换成什么类型的编码的字符串通过import chardetret = chardet.detect(变量)可以查看原有变量的编码类型enncoding或者...原创 2019-03-21 14:19:04 · 114096 阅读 · 1 评论 -
CentOS7 + Django2.1 + uwsgi + nginx配置
假设已经可以运行Django项目,可以runserver。也已经安装了uwsgi和nginx现在需要进行配置。刚开始进行uwsgi测试就不行,提示bash:‘uwsgi’ Command not found执行如下命令增加软链,可以解决uwsgi找不到的问题,不过使用的是uwsgi3命令ln -s /usr/local/python3/bin/uwsgi /usr/bin/uws...原创 2019-03-15 11:29:51 · 313 阅读 · 0 评论 -
python3 爬取搜狗微信的文章
目标地址:http://weixin.sogou.com/weixin?这个地址是搜狗微信的文章搜索,可以搜索到微信的文章,而我们目标就是这些文章内容这个url经过测试,当我们没登陆微信只能看到10页的内容,我们登陆后才可以查看100页的内容,而且翻页多次会出现ip检测的反爬机制,出现302重新跳转到验证码输入页面,输入验证码后才可以继续浏览网页于是我们就利用代理池来解决这个反爬。...原创 2019-03-10 21:25:05 · 4155 阅读 · 4 评论 -
win10 64位 安装scrapy
在学习python时,不可避免下载了Anaconda,当我打算写爬虫时,urllib,requests,selenium,pyspider都已经安装好了,可以直接使用了,但是有一天我想要使用scrapy模块时,发现竟然没有安装,于是自己参照网上教程写下win64安装scrapy步骤:1.升级pippython -m pip install --upgrade pip2.安装whe...原创 2019-03-08 17:24:31 · 272 阅读 · 0 评论 -
Django forms表单 select下拉框的传值
今儿继续做项目,学习了Django的forms生成前端的代码。forms.pyclass SignupForm(forms.Form): username = forms.CharField(validators=[user_unique_validate, username_rule_validate, ], required=True, ...原创 2019-02-26 21:47:29 · 5815 阅读 · 1 评论 -
requests+正则爬取猫眼电影前100
最近复习功课,日常码农生活。import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonfrom multiprocessing import Pool#requests.get()调用完记得抓异常def get_one_page(url): try: ...原创 2019-03-01 22:14:43 · 235 阅读 · 0 评论 -
更改静态图片后,前端依旧显示之前的图片
今天做Django的时候改了一个图片,然后runserver后还是原来的图片,查看了原来配置静态文件的地方,发现没错STATIC_URL = '/static/'STATICFILES_DIRS = ( os.path.join(BASE_DIR, 'static'),)后面在更改其他的图片发现也是之前的。最后,发现是浏览器缓存搞的鬼,清楚缓存后之前的图片就不会出...原创 2019-02-23 15:12:58 · 2581 阅读 · 1 评论 -
Python 知识小tips
python进制转换函数:二进制转换成十进制:v = “0b1111011” # int(v,2)十进制转换成二进制:v = 18 # bin(v)八进制转换成十进制:v = “011” # int(v, 8)十进制转换成八进制:v = 30 # oct(v)十六进制转换成十进制:...原创 2018-11-23 16:04:01 · 121 阅读 · 0 评论