python爬虫
ZJL-阿友
这个作者很懒,什么都没留下…
展开
-
mac下抓包工具proxyman
今天用charles抓https的数据,结果我网上找了一堆的教程没有一个成功的,诶,愚蠢的我呀,还要找到了一一款方便简单的抓包工具proxyman!官网地址:https://proxyman.io/文档地址:https://docs.proxyman.io/有详细的文档,比较全面记录一下用proxyman抓postman的https请求我们以百度(能post的接口不太方便,这里...原创 2020-02-26 19:57:24 · 17395 阅读 · 10 评论 -
仿scrapy的爬虫框架 (python3.5以上模块化,需要支持async/await语法)
目录结构:WebCrawler |----common(通用模块) |----__init__.py |----email_manager.py(邮件管理) |----error_code.py(错误码管理) |----html_manager.py(html页面的redis管理) |----i原创 2017-08-18 08:59:08 · 1109 阅读 · 0 评论 -
aiohttp遇到非法字符的处理(UnicodeDecodeError: 'utf-8' codec can't decode bytes in position......)
这个问题困扰了我将近一天时间,如果使用text()函数会一直报“UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 24461-24462: invalid continuation byte”的错误,如果使用read()函数以二进制输出在后面解析的时候中文是乱码,网上查了很多资料,主要也是自己的疏忽自己看了源码,一直纠原创 2017-08-21 16:43:52 · 26674 阅读 · 3 评论 -
爬取博客详细页面的标题(python3.5以上,async/await,aiohttp)
因为公司使用python2.x,自己没事儿学了一下python3.X觉得挺有意思的,于是写一下爬虫看看效率,毕竟本职工作,哈哈哈........aiohttp是一个第三方异步的http库,感觉还不错,主要是requests是阻塞的代码很简单,还是以自己的博客为例子:# -*-coding:utf-8-*-"""ayou"""from bs4 import Beautiful原创 2017-01-07 12:23:08 · 5048 阅读 · 4 评论 -
关于asyncio的ValueError: too many file descriptors in select()错误
最近写爬虫用asyncio+aiohttp的形式,代码如下:import aiohttpimport asyncioheaders = { "Upgrade-Insecure-Requests": "1", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36原创 2017-08-22 17:02:21 · 7925 阅读 · 7 评论 -
python自制免费代理IP服务
python去各大免费代理ip网站抓取代理ip并做校验入库,然后对库里的ip不停做校验,然后用flask做成api接口目录结构:ProxyIPGet|----app |----flaskrun.py(flask程序) |----static(没用上) |----templates(没用上)|----checkout_script(用来不停校验库里的原创 2017-04-09 22:38:34 · 8005 阅读 · 0 评论 -
srcapy一个进程起多个项目入库mongodb
srcapy一个进程起多个项目再入库mongodb创建项目:scrapy startproject myblog再添加一个项目:scrapy genspider myblog_spider blog.csdn.net查看所有项目:scrapy list目录结构:myblog|----myblog |----__init__.原创 2017-04-09 23:31:06 · 775 阅读 · 0 评论 -
python爬虫URL重试机制实现(python2.7以及python3.5)
应用场景:状态不是200的URL重试多次代码比较简单还有部分注释python2.7实现:# -*-coding:utf-8-*-"""ayou"""import requestsdef url_retry(url,num_retries=3): print(3) try: request = requests.get原创 2017-01-09 16:56:13 · 8293 阅读 · 0 评论 -
Splash的简单使用 和 服务压力测试
mac 安装先安装docker下载地址:https://www.docker.com/products/docker-toolbox一路默认安装直到让你选择Docker Quickstart Terminal还是Kitematic ,选择docker会自动默认安装,继续就ok了验证是否成功:docker-machine start defaultdocker原创 2017-03-01 00:19:59 · 5743 阅读 · 0 评论 -
python 网站爬虫 下载在线盗墓笔记小说到本地的脚本
python 网络爬虫 下载在线小说 ..................最近闲着没事想看小说,找到一个全是南派三叔的小说的网站,决定都下载下来看看,于是动手,在很多QQ群里高手的帮助下(本人正则表达式很烂,程序复杂的正则都是一些高手指导的),花了三四天写了一个脚本需要 BeautifulSoup 和 requests 两个库(我已经把注释写得尽量详细)这个程序的执行速度很慢,求高手告诉我优化的方法!!原创 2014-10-14 15:22:27 · 9902 阅读 · 0 评论 -
python爬虫:案例三:去哪儿酒店价格信息
#coding=utf-8import sysreload(sys)sys.setdefaultencoding( "utf-8" )import urllibfrom selenium import webdriverimport timefrom bs4 import BeautifulSoupimport requestsimport osfrom selenium.we原创 2016-05-24 01:17:16 · 15095 阅读 · 0 评论 -
python爬虫:案例一:360指数
pip installbeautifulsoup4pip install requestspip install selenium下载 phantomjs给 firefox 安装 firebug创建一个目录名为baidupccd baidupc创建虚拟环境virtualenv macp将phantomjs-2.1.1-macosx.zip解压原创 2016-05-08 21:28:37 · 13053 阅读 · 2 评论 -
python爬虫:案例二:携程网酒店价格信息
这个案例可能不太智能,有个朋友和我说他们公司让他爬携程的酒店价格信息,我当时去看了一下,发现携程的信息爬起来挺麻烦,城市是必输项,酒店名是选输项,跳转的url中城市后面带一个数字,对于这个每个城市表示的数字的规则我不知道,这样我只能定向爬一个城市,或者就是模拟浏览器之类,觉得挺麻烦,到了酒店页面又有挺多东西看着头疼,我对他说这个挺麻烦的,分析花的时间会很久,后来他说他们公司是人工输入酒店价格详情的原创 2016-05-09 21:02:12 · 22298 阅读 · 4 评论 -
python爬虫:案例四:新浪微指数
新浪的微指数,首页输入一个关键字,比如 欢乐颂,会跳转至:http://data.weibo.com/index/hotword?wid=1091324230349&wname=欢乐颂我不知道wid是什么编号还是什么,也不是和其他关键字的wid规则,于是我就删除了这个参数再请求一次,发现去掉也可以进入页面热词趋势是一张图,鼠标动就会显示每天的数据,这个和360指数,百度指数一样微指数还原创 2016-05-25 23:02:29 · 12410 阅读 · 1 评论 -
python scrapy 爬博客信息
我又要来刷自己博客了,捂脸这次是用scrapy先创建一个scrapy项目命令:scrapy startproject myblog目录结构:scrapy.cfg myblog/ |----__init__.py |----items.py |----pipelines.py|----settings.py|----spiders/原创 2016-10-06 15:35:52 · 8558 阅读 · 0 评论 -
python queue和多线程的爬虫 与 JoinableQueue和多进程的爬虫
多线程加queue的爬虫以自己的csdn博客为例(捂脸,算不算刷自己博客访问量啊,哈哈哈)代码比较简单,有注释:# -*-coding:utf-8-*-"""ayou"""import requestsfrom requests.exceptions import HTTPError, ConnectionErrorfrom bs4 import BeautifulSou原创 2016-10-01 15:53:04 · 13889 阅读 · 5 评论 -
python java 操作 javascript 函数
爬虫中经常遇到js生成cookie或者密码加密等问题这里是用java,python操作js的方式这里以一段js加密为例:security.js源文件:/* * RSA, a suite of routines for performing RSA public-key computations in JavaScript. * Copyright 199原创 2017-02-27 21:54:55 · 1701 阅读 · 1 评论 -
python为在线漫画网站自制非官方API(未完待续)
接下来将记录我一步一步写一个非官方API的过程,因为一些条件的约束,最后的成品可能很粗暴简陋现在介绍要准备的所有工具:系统:ubuntu 14.04语言:python 2.7需要自行安装的库:flask,BeautifulSoup4,requests,selenium,pinyin,phantomjs-1.9.8服务器:Sina App Engine因为成本原因我选择了Si原创 2015-07-04 19:01:41 · 14624 阅读 · 2 评论