自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(26)
  • 收藏
  • 关注

转载 造一个轮子然后安装到pypi上

   之前写了一个爬虫的包,主要是根据自己写爬虫的情况总结一下。 因为每次都要重复写一些代码,所以提炼出来,类似一个框架的样子吧。 开始是放在自己的项目里引用,但如果换了一个项目,就得重新拷一遍,很麻烦。 后面又学到了,放在site-package里面可以在自己的环境引用,但换一个环境也是不行的,于是想到放到pypi上面,可以直接pi...

2019-04-03 23:06:00 135

转载 Python SSLError

最近老是遇到这个问题。SSLError(SSLError(1, '[SSL: CERTIFIC ATE_VERIFY_FAILED] certificate verify failed (_ssl.c:841)'))错误代码841,结果是Fiddler没关,好吧。搜半天,真的浪费时间。写一些比较常见的错误解决办法,暂时不知道代码,遇到再更新。1.设置veri...

2019-04-03 15:33:00 245

转载 部署一个flask服务记录

最近使用flask写了一些简单的服务。服务部署到服务器上进行使用,这个过程会有一些问题,需要进行记录一下。说明运行的环境情况。使用的是python3.6的虚拟环境,系统是centos7,其他的有uwsgi,supervisor,ngnix。首先准备一个简单的flask服务。代码ipapp.py:# encoding=utf-8# date: 2...

2019-03-07 01:13:00 109

转载 Python爬虫之XML

一、请求参数形式为xml 举例说明。 现在有这样一个网址:https://www.runff.com/html/live/s1484.html;想要查询图片列表,打开F12,观察到请求如下: 这里的请求参数形式为xml,使用python模仿请求的代码这样写import requestsfid = 37488...

2018-11-30 17:35:00 244

转载 一次简单粗暴的验证码识别经历

最近爬取一个网站时,遇到了验证码的情况。验证码形式是计算题,10以内的数字(可能有少量十以上),加减乘计算。 开始懒得搞,第一批需要的数据量并不大,想着直接平台打码。 原因是以前登录新浪微博的时候也是直接打码的,比较熟练,也简便。但打码成本比较高,后续需求量大,所以最好自己能识别。 看了几篇识别验证码的文章,基本处理流程如下: 1.去掉颜色;灰度处理,二值...

2018-08-24 12:21:00 318

转载 python爬虫常用之Scrapy 中间件

一、概述  1.中间件的作用 在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作.    例如scrapy内置的HttpErrorMiddleware,可以在http请求出错时做一些处理. 2.中间件的使用方法 配置settings.py.详见scrapy文档 https://do...

2018-03-23 14:46:00 428

转载 python爬虫常用之Scrapy 简述

一、安装 pip install scrapy. 如果提示需要什么包就装什么包 有的包pip安装不起,需要自己下载whl文件进行安装.二、基本的爬虫流程 通用爬虫有如下几步: 构造url -->> 请求,获取页面内容 -->> 分析页面内容(解析) -->> 保存结果  三、scrapy...

2018-03-23 11:08:00 119

转载 mongoengine在python中的使用

# /usr/bin/python# encoding: utf-8# Author: masakofrom mongoengine import *host ='127.0.0.1'port = 27017user = 'test'password = 'test123'db_name = 'test'collection = 'my...

2018-03-05 11:36:00 106

转载 rsa字符串格式公钥转换python rsa库可识别的公钥形式

在爬虫分析的时候,经常在网页上看到如下格式的rsa公钥:MIGfMA0GCSqGSIb3DQEBAQUAA4GNADCBiQKBgQDC7kw8r6tq43pwApYvkJ5laljaN9BZb21TAIfT/vexbobzH7Q8SUdP5uDPXEBKzOjx2L28y7Xs1d9v3tdPfKI2LR7PAzWBmDMn8riHrDDNpUpJnlAGUqJG9ooPn...

2017-10-13 11:47:00 1684

转载 Python爬虫常用之登录(三) 使用http请求登录

前面说了使用浏览器登录较为简单,不需要过多分析,而使用请求登录恰恰就是以分析为主.开发一个请求登录程序的流程: 分析请求->模拟请求->测试登录->调整参数->测试登录->登录成功一、分析网页从网页着手,打开博客园的登录页面,F12调出网页调试,选择network的tab,然后登录,登录成功后大致有如下请求可以看到:可以看到圈...

2017-08-21 17:03:00 616

转载 Python爬虫常用之登录(二) 浏览器模拟登录

浏览器模拟登录的主要技术点在于:1.如何使用python的浏览器操作工具selenium2.简单看一下网页,找到帐号密码对应的框框,要知道python开启的浏览器如何定位到这些一、使用selenium打开网页from selenium import webdriverurl = 'https://passport.cnblogs.com/user/signin...

2017-08-21 12:27:00 186

转载 Python爬虫常用之登录(一) 思想

爬虫主要目的是获取数据,常见的数据可以直接访问网页或者抓包获取,然后再解析即可.一些较为隐私的数据则不会让游客身份的访问者随便看到,这个时候便需要登录获取.一般获取数据需要的是登录后的cookie作为身份验证,如果一个可用cookie就能满足你的爬虫需要,可以不用模拟登录,直接在网页上登录,拷贝cookie下来,写死在代码中.其他的情况可能需要代码帮你登录,然后获取登录的...

2017-08-21 12:25:00 166

转载 python发送邮件

首先是使用ubuntu作为服务器发送 这个操作可能失败,收邮件也需要到垃圾箱查看。 第一步,安装发送邮件需要的服务 使用命令:sudo apt-get install postfixsudo service postfix start  第一句是安装,第二句是开启  第二步,写一个发邮件的python文件 随便上网找一段就可...

2017-07-21 14:56:00 96

转载 amqp模块在python2.7.6版本上报错的问题

机器的环境是python2.7.6;使用pip install安装了amqp.正常安装,未报错.amqp安装的版本是2.1.4.在python中,使用import amqp,报错如下:Traceback (most recent call last): File "<stdin>", line 1, in <module> File...

2017-06-29 17:46:00 157

转载 supervisor使用小记

最近使用supervisor部署爬虫,百度了很多,磕磕绊绊自己也算是用起来了,以下是整理的使用情况.第一步:下载安装supervisor使用的ubuntu16.04,直接sudo apt-get installsupervisor由于权限老是不够,习惯加sudo~也可以 pip install supervisor第二步:生成初始配置文件,文件名为sup...

2017-06-02 09:43:00 127

转载 json操作相关记录

json是javascript衍生的数据表示法,现在许多数据的处理都使用json.平时用到的与json结构相似的有很多,如mongodb数据库,python的字典等.核心思想就是键值对.json的基本数据结构包括对象和数组,对象用{},里面是键值对,数组用[],可包含多个对象;json在python中解析后,对象出来是字典,数组是列表.json简单操作:---------...

2017-05-17 15:08:00 115

转载 mongodb与python随手记

在python中使用pymongo连接mongodb数据库.基本代码如下:from pymongo import MongoClientclient = MongoClient('127.0.0.1', 27017) # mongodb的地址db_name = 'myfirstmongo' # 数据库的名字db = client...

2017-05-12 18:02:00 116

转载 python函数超时情况应对总结

最近处理一个线程中的函数超时问题.函数里面有一个地方可能会卡死,我们需要去判断这个是不是卡死了,并做出相应的应对方案.最开始想的是在函数上增加一个装饰器,使其在超时时抛出异常,然后在其他地方捕获这个异常,并处理.查询了一些前人的方案,写出的结果有两种.方案一:使用threading的timer定时器,代码如下:from threading import timer...

2017-05-04 14:59:00 357

转载 base64的python实现

写了一个函数,自己按照base64的规则转换一个字符串. 1 # /usr/bin/python 2 # encoding: utf-8 3 base64_table = ['A', 'B', 'C', 'D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','...

2017-04-12 09:54:00 81

转载 Python爬虫常用之PyQuery

PyQuery是解析页面常用的库.是python对jquery的封装.下面是一份解析基本页面的代码.后期用到复杂或者实用的方式再增加. 1 from pyquery import PyQuery as pq 2 3 4 # 参数为字符串的情况 5 html_str = "<html></html>" 6 7 # 参数为网页链接...

2017-03-27 16:41:00 146

转载 Scrapy安装指南(windows)

windows开发,难免遇到很多坑,比一般开发是艰苦得多。先不吐槽windows,我们直接看这个scrapy怎么安装。首先,要有一份文档,比如我用这个:  http://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html。最好是根据自己的scrapy版本去找文档,百度一下google一下都行。找到文档之后,文档中有安装指南,这个...

2016-10-12 11:49:00 89

转载 Scrapy错误-no active project Unknown command: crawl

  在运行别人的scrapy项目时,使用命令行 scrapy crawl douban(douban是该项目里爬虫的名字,烂大街的小项目---抓取豆瓣电影)。  执行之后,出现报错如下:    上网搜寻无果。  大多数是说路径不对,需要进入到项目工程的路径下,然而,我在项目的路径里。  听从建议使用了“scrapy”命令行之后发现,能使用的命令如下:    没...

2016-09-19 11:04:00 700

转载 Python爬虫常用之HtmlParser

HtmlParser,顾名思义,是解析Html的一个工具。python自带的。一、常用属性和方法介绍  HtmlParser是一个类,在使用时一般继承它然后重载它的方法,来达到解析出需要的数据的目的。  1.常用属性:    lasttag,保存上一个解析的标签名,是字符串。  2.常用方法:     handle_starttag(tag, attrs) ,处理...

2016-09-13 14:34:00 105

转载 Python异常基础

一、常见异常及场景举例 1.AssertionError  断言失败,断言是调试中常用(表示自己并不常用┑( ̄Д  ̄)┍)手段  举例:  def foo(s): n = int(s) assert n != 0, 'n is zero!' return 10 / nfoo(0)View Code  上面代码就会输出A...

2016-09-07 10:46:00 80

转载 python开头——文件声明 详解

一、解释器声明  1.声明方式    linux    #!/usr/bin/python    windowns    #!c:/python27/python.exe    放在首行  2.作用    告诉电脑,要用/usr/bin下面的程序(工具)python,这个解释器,来解释/运行python脚本。    Windows同理。二、编码声明 ...

2016-09-01 11:36:00 233

转载 if __name__ == '__main__' 详解

1.__name__是啥  __name__ 是Python的模块名字。  手册解释:The name of the module.2.__name__的值  首先,一个变量一次只有一个值。  其次,__name__的值python自动给。  比如,你的文件叫 hello.py,它在引入之后,__name__就是hello.3.__main__是啥  是当...

2016-09-01 11:05:00 120

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除