自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 [置顶]使用scrapy_redis,自动实时增量更新东方头条网全站新闻

存储使用mysql,增量更新东方头条全站新闻的标题 新闻简介 发布时间 新闻的每一页的内容 以及新闻内的所有图片。项目文件结构。 这是run.py的内容 1 #coding=utf-8 2 from scrapy import cmdline 3 import redis,time,threading 4 from multiprocessing import Process

2017-07-06 10:03:48 4003 16

原创 [置顶]scrapy 知乎关键字爬虫spider代码

以下是spider部分的代码。爬知乎是需要登录的,建议使用cookie就可以了,如果需要爬的数量预计不多,请不要使用过大的线程数量,否则会过快的被封杀,需要等十几个小时账号才能重新使用,比起损失的这十几个小时的时间,即使是单线程也能够爬取很多页面了,得不偿失。知乎是基于账号策略反爬的,换ua和ip并没用,如果需要高并发,需要采用几十个账号的方式来爬取。 1 # -*- coding: utf

2017-07-06 10:03:45 768

原创 [置顶]百度贴吧自动回帖的两种方式,使用requests(urllib2)和selenium两种方式回帖

本文介绍,回复贴吧指定某楼层主的帖子的方法。在这里不介绍无限发主贴和无限回复主贴的方法,无限发主题帖会爆吧,引起别人的反感,并且很容易遭到吧主的封杀;无限回主题帖,会让整个帖子的每楼的回复充满了自己的内容,严重影响别人阅读回帖,可能被举报遭到吧主禁言。只要看了本文就可以无限回帖了,如果需要改成发主题帖或者回主题帖,那肯定只会比这简单,自己理解修改下就可以了。 一般向系统里面添加数据,无非就几种

2017-07-06 10:03:42 2324

原创 将博客搬至CSDN

。。。。。

2017-07-06 10:03:38 251

原创 fiddler抓包,搞定接口

上篇介绍的世纪佳缘登录是由已有cookie保持登录状态的。世纪佳缘登陆不需要填入验证码,可以很方便直接请求登录接口来达到登录状态的目的。这篇介绍直接从登录接口进行登录,那么这就要求要找到登录接口url和接口参数。登录接口是个https,fiddler中设置https。 双击这个抓包,会跳转到inspectors登录代码import requestsurl='https://pas

2017-07-06 10:03:33 15047 1

原创 世纪佳缘信息爬取存储到mysql,下载图片到本地,从数据库选取账号对其发送消息更新发信状态

利用这种方法,可以把所有会员信息存储下来,多线程发信息,10秒钟就可以对几百个会员完成发信了。 首先是筛选信息后爬取账号信息,#-*-coding:utf-8-*-import requests,re,json,time,threadpool,osfrom mydba import MySqlfrom gevent import monkey#monkey.patch_all(

2017-07-06 10:03:28 1619

原创 使用tensorflow深度学习识别验证码

除了传统的PIL包处理图片,然后用pytessert+OCR识别意外,还可以使用tessorflow训练来识别验证码。此篇代码大部分是转载的,只改了很少地方。代码是运行在linux环境,tessorflow没有支持windows的python 2.7。 gen_captcha.py代码。#coding=utf-8from captcha.image import ImageCaptc

2017-07-06 10:03:21 4061

原创 单线程、多线程、多进程、协程比较,以爬取新浪军事历史为例

演示python单线程、多线程、多进程、协程 1 import requests,json,random 2 import re,threading,time 3 from lxml import etree 4 5 lock=threading.Lock() 6 semaphore=threading.Semaphore(100) ###每次限制只能100线程

2017-07-06 10:03:16 675

原创 web开发中的安全问题

web开发中很多东西由前段来负责判断,比如常见的邮箱 电话号码,前端判断到不是一个正确的格式,在你点击提交时候提示你格式填错了,然后不请求后端php,直到你填写正确的格式为止。这种其实可以修改js或者干脆用python里面的requests之类的http请求库直接请求接口,那么可以成功把错误的东西提交给后端进而存储到数据库了,那么这种就不太好了。如果系统不重要,用的人不多,可以勉强放过这一点。

2017-07-06 10:03:13 300

原创 介绍requests+threading多线程爬虫,提取采用xpath 和正则两种,介绍线程锁

爬虫专业的都喜欢scrapy框架,但scrapy上手需要时间,对初学者不太适合。本文介绍使用requets爬虫,为了利于演示学习,使用了xpath解析html和完全使用正则来提取两种方法,仅供参考。代码是爬取http://esf.sz.fang.com/,房天下网站的深圳二手房信息import requests,json,randomimport re,threadingfrom lx

2017-07-06 10:03:08 4709

原创 关于无效验证码

验证码作用更多是防止随意的机器,目的是给机器造成麻烦,但是我也见过很多项目的验证码是没有任何效果的,这里说的无效验证码包括图形验证码和短信验证码。为什么说是无效的,不是因为验证码的图形做的太简单很容易图形识别,这种不算无效的。下面举例子无效的验证码,图形验证码,点击获取验证码变图形,点击后,服务端把真正的图形验证码对应的文字返回给前端(web或者安卓或者ios),然后你在输入框输入验证码,前

2017-07-06 10:03:04 3520

原创 python2.7中关于编码,json格式的中文输出显示

当我们用requests请求一个返回json的接口时候,语法是 result=requests.post(url,data).contentprint type(result),result 得到的结果是 {"no":12,"err_code":220012,"error":null,"data":{"autoMsg":"","fid":6428441,"fname":"\u884c\

2017-07-06 10:02:54 1750

原创 一个网址

https://www.zhihu.com/question/24590883

2017-07-06 10:02:49 367

原创 基于pyteseract google ocr的图形验证码识别

先灰化图片,把图片二值化,利用pytesseract包的pytesseract.image_to_string转换出文字。

2017-07-06 10:02:46 924

原创 python使用pyqt写带界面工具

上篇介绍的使用python自带tkinter包,来写带界面的工具。此篇介绍使用pyqt来开发测试工具。tkinter的好处是python官方自带,上手容易(但手写控件复杂),布局和摆放都不直观和容易,因为是像素坐标定位,需要花较长时间在界面开发上。pyqt是第三方gui开发工具,是目前公认的python上最好的客户端界面开发工具,因为控件是通过qt设计师的手动拖拽,调整颜色 字体 大小等样式也

2017-07-06 10:02:44 8359 1

原创 python使用tkinter写带界面的工具

python一般用来写纯脚本的居多,但也可以做有视图的产品出来,例如做网页和客户端工具。做成工具的好处是,让不懂代码的人也能使用,不需要去修改代码里面的参数,如果使用次数频繁,甚至比纯脚本跟节约时间;最大的好处是打包后可以运行在任何没有安装脚本中第python三方包的电脑上,也可以运行在任何没有安装python的电脑上。下面上我很久之前的tkinter做的第一个测试工具的源代码。此部分是tkin

2017-07-06 10:02:41 4092

原创 pytesseract 报windows err no2的错误

需要把源安装文件pytesseract.py的修改为,tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'原始是tesseract_cmd = 'tesseract'。虽然已经设置了环境变量,但是还是老老实实的写全路径就不会报这个错了

2017-07-06 10:02:36 205

原创 scrapy 元素的相对xpath

2017-07-06 10:02:30 344

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除