T18612483166-CSDN博客

转载造一个轮子然后安装到pypi上

　　之前写了一个爬虫的包，主要是根据自己写爬虫的情况总结一下。因为每次都要重复写一些代码，所以提炼出来，类似一个框架的样子吧。开始是放在自己的项目里引用，但如果换了一个项目，就得重新拷一遍，很麻烦。后面又学到了，放在site-package里面可以在自己的环境引用，但换一个环境也是不行的，于是想到放到pypi上面，可以直接pi...

2019-04-03 23:06:00 139

转载 Python SSLError

最近老是遇到这个问题。SSLError(SSLError(1, '[SSL: CERTIFIC ATE_VERIFY_FAILED] certificate verify failed (_ssl.c:841)'))错误代码841，结果是Fiddler没关，好吧。搜半天，真的浪费时间。写一些比较常见的错误解决办法，暂时不知道代码，遇到再更新。1.设置veri...

2019-04-03 15:33:00 248

转载部署一个flask服务记录

最近使用flask写了一些简单的服务。服务部署到服务器上进行使用，这个过程会有一些问题，需要进行记录一下。说明运行的环境情况。使用的是python3.6的虚拟环境，系统是centos7，其他的有uwsgi，supervisor，ngnix。首先准备一个简单的flask服务。代码ipapp.py：# encoding=utf-8# date: 2...

2019-03-07 01:13:00 109

转载 Python爬虫之XML

一、请求参数形式为xml 举例说明。现在有这样一个网址：https://www.runff.com/html/live/s1484.html；想要查询图片列表，打开F12，观察到请求如下：这里的请求参数形式为xml，使用python模仿请求的代码这样写import requestsfid = 37488...

2018-11-30 17:35:00 245

转载一次简单粗暴的验证码识别经历

最近爬取一个网站时，遇到了验证码的情况。验证码形式是计算题，10以内的数字(可能有少量十以上)，加减乘计算。开始懒得搞，第一批需要的数据量并不大，想着直接平台打码。原因是以前登录新浪微博的时候也是直接打码的，比较熟练，也简便。但打码成本比较高，后续需求量大，所以最好自己能识别。看了几篇识别验证码的文章，基本处理流程如下： 1.去掉颜色；灰度处理，二值...

2018-08-24 12:21:00 321

转载 python爬虫常用之Scrapy 中间件

一、概述　　1.中间件的作用在scrapy运行的整个过程中,对scrapy框架运行的某些步骤做一些适配自己项目的动作. 　　例如scrapy内置的HttpErrorMiddleware,可以在http请求出错时做一些处理. 2.中间件的使用方法配置settings.py.详见scrapy文档 https://do...

2018-03-23 14:46:00 428

转载 python爬虫常用之Scrapy 简述

一、安装 pip install scrapy. 如果提示需要什么包就装什么包有的包pip安装不起,需要自己下载whl文件进行安装.二、基本的爬虫流程通用爬虫有如下几步: 构造url -->> 请求,获取页面内容 -->> 分析页面内容(解析) -->>　保存结果　三、scrapy...

2018-03-23 11:08:00 120

转载 mongoengine在python中的使用

# /usr/bin/python# encoding: utf-8# Author: masakofrom mongoengine import *host ='127.0.0.1'port = 27017user = 'test'password = 'test123'db_name = 'test'collection = 'my...

2018-03-05 11:36:00 107

转载 rsa字符串格式公钥转换python rsa库可识别的公钥形式

在爬虫分析的时候,经常在网页上看到如下格式的rsa公钥:MIGfMA0GCSqGSIb3DQEBAQUAA4GNADCBiQKBgQDC7kw8r6tq43pwApYvkJ5laljaN9BZb21TAIfT/vexbobzH7Q8SUdP5uDPXEBKzOjx2L28y7Xs1d9v3tdPfKI2LR7PAzWBmDMn8riHrDDNpUpJnlAGUqJG9ooPn...

2017-10-13 11:47:00 1695

转载 Python爬虫常用之登录(三) 使用http请求登录

前面说了使用浏览器登录较为简单,不需要过多分析,而使用请求登录恰恰就是以分析为主.开发一个请求登录程序的流程: 分析请求->模拟请求->测试登录->调整参数->测试登录->登录成功一、分析网页从网页着手,打开博客园的登录页面,F12调出网页调试,选择network的tab,然后登录,登录成功后大致有如下请求可以看到:可以看到圈...

2017-08-21 17:03:00 629

转载 Python爬虫常用之登录(二) 浏览器模拟登录

浏览器模拟登录的主要技术点在于:1.如何使用python的浏览器操作工具selenium2.简单看一下网页,找到帐号密码对应的框框,要知道python开启的浏览器如何定位到这些一、使用selenium打开网页from selenium import webdriverurl = 'https://passport.cnblogs.com/user/signin...

2017-08-21 12:27:00 187

转载 Python爬虫常用之登录(一) 思想

爬虫主要目的是获取数据,常见的数据可以直接访问网页或者抓包获取,然后再解析即可.一些较为隐私的数据则不会让游客身份的访问者随便看到,这个时候便需要登录获取.一般获取数据需要的是登录后的cookie作为身份验证,如果一个可用cookie就能满足你的爬虫需要,可以不用模拟登录,直接在网页上登录,拷贝cookie下来,写死在代码中.其他的情况可能需要代码帮你登录,然后获取登录的...

2017-08-21 12:25:00 167

转载 python发送邮件

首先是使用ubuntu作为服务器发送这个操作可能失败，收邮件也需要到垃圾箱查看。第一步,安装发送邮件需要的服务使用命令:sudo apt-get install postfixsudo service postfix start　　第一句是安装,第二句是开启　　第二步,写一个发邮件的python文件随便上网找一段就可...

2017-07-21 14:56:00 96

转载 amqp模块在python2.7.6版本上报错的问题

机器的环境是python2.7.6;使用pip install安装了amqp.正常安装,未报错.amqp安装的版本是2.1.4.在python中,使用import amqp,报错如下:Traceback (most recent call last): File "<stdin>", line 1, in <module> File...

2017-06-29 17:46:00 163

转载 supervisor使用小记

最近使用supervisor部署爬虫,百度了很多,磕磕绊绊自己也算是用起来了,以下是整理的使用情况.第一步:下载安装supervisor使用的ubuntu16.04,直接sudo apt-get installsupervisor由于权限老是不够,习惯加sudo~也可以 pip install supervisor第二步:生成初始配置文件,文件名为sup...

2017-06-02 09:43:00 127

转载 json操作相关记录

json是javascript衍生的数据表示法,现在许多数据的处理都使用json.平时用到的与json结构相似的有很多,如mongodb数据库,python的字典等.核心思想就是键值对.json的基本数据结构包括对象和数组,对象用{},里面是键值对,数组用[],可包含多个对象;json在python中解析后,对象出来是字典,数组是列表.json简单操作:---------...

2017-05-17 15:08:00 115

转载 mongodb与python随手记

在python中使用pymongo连接mongodb数据库.基本代码如下:from pymongo import MongoClientclient = MongoClient('127.0.0.1', 27017) # mongodb的地址db_name = 'myfirstmongo' # 数据库的名字db = client...

2017-05-12 18:02:00 118

转载 python函数超时情况应对总结

最近处理一个线程中的函数超时问题.函数里面有一个地方可能会卡死,我们需要去判断这个是不是卡死了,并做出相应的应对方案.最开始想的是在函数上增加一个装饰器,使其在超时时抛出异常,然后在其他地方捕获这个异常,并处理.查询了一些前人的方案,写出的结果有两种.方案一:使用threading的timer定时器,代码如下:from threading import timer...

2017-05-04 14:59:00 366

转载 base64的python实现

写了一个函数，自己按照base64的规则转换一个字符串. 1 # /usr/bin/python 2 # encoding: utf-8 3 base64_table = ['A', 'B', 'C', 'D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','...

2017-04-12 09:54:00 81

转载 Python爬虫常用之PyQuery

PyQuery是解析页面常用的库.是python对jquery的封装.下面是一份解析基本页面的代码.后期用到复杂或者实用的方式再增加. 1 from pyquery import PyQuery as pq 2 3 4 # 参数为字符串的情况 5 html_str = "<html></html>" 6 7 # 参数为网页链接...

2017-03-27 16:41:00 147

转载 Scrapy安装指南(windows)

windows开发，难免遇到很多坑，比一般开发是艰苦得多。先不吐槽windows，我们直接看这个scrapy怎么安装。首先，要有一份文档，比如我用这个：　　http://scrapy-chs.readthedocs.io/zh_CN/0.24/index.html。最好是根据自己的scrapy版本去找文档，百度一下google一下都行。找到文档之后，文档中有安装指南，这个...

2016-10-12 11:49:00 89

转载 Scrapy错误-no active project Unknown command: crawl

　　在运行别人的scrapy项目时，使用命令行 scrapy crawl douban（douban是该项目里爬虫的名字，烂大街的小项目---抓取豆瓣电影）。　　执行之后，出现报错如下：　　　　上网搜寻无果。　　大多数是说路径不对，需要进入到项目工程的路径下，然而，我在项目的路径里。　　听从建议使用了“scrapy”命令行之后发现，能使用的命令如下：　　　　没...

2016-09-19 11:04:00 711

转载 Python爬虫常用之HtmlParser

HtmlParser，顾名思义，是解析Html的一个工具。python自带的。一、常用属性和方法介绍　　HtmlParser是一个类，在使用时一般继承它然后重载它的方法，来达到解析出需要的数据的目的。　　1.常用属性：　　　　lasttag，保存上一个解析的标签名，是字符串。　　2.常用方法：　　　　　handle_starttag(tag, attrs) ，处理...

2016-09-13 14:34:00 105

转载 Python异常基础

一、常见异常及场景举例　1.AssertionError　　断言失败，断言是调试中常用（表示自己并不常用┑(￣Д ￣)┍）手段　　举例：　　def foo(s): n = int(s) assert n != 0, 'n is zero!' return 10 / nfoo(0)View Code　　上面代码就会输出A...

2016-09-07 10:46:00 80

转载 python开头——文件声明详解

一、解释器声明　　1.声明方式　　　　linux　　　　#!/usr/bin/python　　　　windowns　　　　#!c:/python27/python.exe　　　　放在首行　　2.作用　　　　告诉电脑，要用/usr/bin下面的程序（工具）python，这个解释器，来解释/运行python脚本。　　　　Windows同理。二、编码声明　...

2016-09-01 11:36:00 235

转载 if name == 'main' 详解

1.__name__是啥　　__name__ 是Python的模块名字。　　手册解释：The name of the module.2.__name__的值　　首先，一个变量一次只有一个值。　　其次，__name__的值python自动给。　　比如，你的文件叫 hello.py，它在引入之后，__name__就是hello.3.__main__是啥　　是当...

2016-09-01 11:05:00 120