Spider
漫天丶飞雪
PYTHON | 机器学习 | 数据分析 | 反反爬虫 | 网络安全
展开
-
手机app数据的爬取之mitmproxy安装途径
github地址 :https://github.com/mitmproxy/mitmproxy/releases/mitmproxy下载地址 :https://mitmproxy.org/downloads/参考 :https://www.cnblogs.com/yunlongaimeng/p/9617708.html...原创 2019-11-04 18:30:13 · 270 阅读 · 0 评论 -
为何大量网站不能抓取?爬虫突破封禁的6种常见方法
在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。本文假定读者已经了解如何用代码来抓取一个远程的 URL,并具备表单如何提交及 JavaScri...转载 2019-08-15 12:49:14 · 497 阅读 · 0 评论 -
Python并发编程之线程池/进程池之concurrent.futures模块
运行环境:python 3.6.0一、关于concurrent.futures模块Python 的标准库为我们提供了 threading 和multiprocessing 模块编写相应的多线程/多进程代码,但是当项目达到一定的规模,频繁创建/销毁进程或者线程是非常消耗资源的,这个时候我们就要编写自己的线程池/进程池,以空间换时间。但从Python3.2开始,标准库为我们提供了conc...原创 2019-07-15 12:22:47 · 562 阅读 · 0 评论 -
InsecureRequestWarning解决方案
其实这是一个https的不安全请求警告,解决方法就是将该警告忽略掉,忽略该警告就不会再提示了解决方案来源:百度from urllib3.exceptions import InsecureRequestWarningfrom urllib3 import disable_warningsdisable_warnings(InsecureRequestWarning) # http...原创 2019-06-03 21:11:38 · 1700 阅读 · 0 评论 -
python爬取中国大学排名信息
运行环境:python3.6.0功能:爬取个中国大学排名玩玩,网页链接:http://gaokao.afanti100.com/university.html。将爬取的结果保存至文本,上传至数据库,保存各院校校徽。注意:因为该网站收录了部分信息,所以信息可能不是很完整,但是一个信息都不放过。内容仅供参考。运行截图:运行程序:# -*- coding: ...原创 2019-06-07 12:17:54 · 2220 阅读 · 1 评论 -
关于反爬虫,看这一篇就够了
编者:本文来自携程酒店研发部研发经理崔广宇在第三期【携程技术微分享】上的分享,以下为整理的内容概要。墙裂建议点击视频回放,“现场”围观段子手攻城狮大崔,如何高智商&高情商地完美碾压爬虫。。。关注携程技术中心微信公号ctriptech,可第一时间获知微分享信息~你被爬虫侵扰过么?当你看到“爬虫”两个字的时候,是不是已经有点血脉贲张的感觉了?千万要忍耐,稍稍做点什么,就可以在名义上让他们胜...转载 2019-05-16 18:50:35 · 956 阅读 · 0 评论 -
用python写一个百度翻译
运行环境: python 3.6.0今天处于练习的目的,就用 python 写了一个百度翻译,是如何做到的呢,其实呢就是拿到接口,通过这个接口去访问,不过中间确实是出现了点问题,不过都解决掉了先晾图后晾代码运行结果:代码:# -*- coding: utf-8 -*-"""功能:百度翻译注意事项:中英文自动切换"""import requestsimpor...原创 2019-05-04 18:48:30 · 3823 阅读 · 2 评论 -
判断一个字符串是否含有中文的方法
运行环境: python 3.6.0关于如何判断一个字符串是否含有中文这个问题,那么一定得知道什么是编码,计算机不会直接告诉你什么是中文,什么不是中文的,计算机只认识二进制,一切的字符在计算机中都是以二进制的形式进行存储,计算机同时也只能运行二进制。我们平时在计算机中所见到的所有字符都是以ascii码表的形式存储的,然后对应的 adcii 以相应的方式转存为二进制,但是在 ascii 码表...原创 2019-05-04 18:30:00 · 4261 阅读 · 0 评论 -
selenium3 + Edge + win10 配置
运行环境: python 3.6.0注:Edge为 Win10 自带的浏览器安装Selenium1. cmd 命令使用 pip 指令安装 seleniumpip install selenium2. 下载Edge对应的 Webdirver查看Edge版本号,下载对应驱动... →设置 → 拖到最下方根据Edge版本下载驱动http...原创 2019-05-04 09:10:34 · 2016 阅读 · 0 评论 -
Selenium设置Chrome和PhantomJS的请求头信息
对于反爬虫来说,部分对策可以选择Selenium模拟器进行爬取,但是问题来了,如何设置请求头呢,模拟器是怎样伪装的呢?目录:一:selenium设置phantomjs请求头 二:selenium设置chrome请求头 三:selenium设置chrome–cookie 四:selenium设置phantomjs-图片不加载一:selenium设置phantomjs请求头:设置h...原创 2019-04-28 19:08:09 · 4291 阅读 · 0 评论 -
在PyCharm内部运行Scrapy项目
刚刚接触 scrapy,发现一切的scrapy项目的运行都是在命令行进行的,虽然说调试的时候也很方便,但是每次打开项目去运行都需要打开命令行进入到项目目录里面再去运行,我个人认为这是比较繁琐的。然后就去寻找其他办法,看看有没有就像在PyCharm里面的小项目一样可以直接在PyCharm内部调试运行的方法我百度过之后发现在命令行运行其实是调用了...\Python36\Lib\site-pac...原创 2019-04-15 11:16:08 · 1151 阅读 · 0 评论 -
爬去当当热销图书信息
运行环境:python 3.6.0目的:练练手,爬去当当图书热门图书的信息并且存储import requestsimport reimport threadingimport jsonbase_url = url = 'http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-'hea...原创 2019-04-13 15:19:59 · 320 阅读 · 0 评论 -
windows安装scrapy
今天来分享一下如何在windows环境下安装配置scrapy和新建scrapy项目准备环境1.python3.62.pip命令配置scrapy环境首先,win+R快捷键打开cmd命令,如果执行如下命令由于网络问题出错的话,就重试一下1.安装lxmlpip install lxml2.安装pywin32模块pip install pyWin323.安装Tw...原创 2019-04-03 17:38:35 · 472 阅读 · 0 评论 -
python第三方库安装.whl文件
当我们windows系统在cmd环境下用pip命令安装一些python第三方库的时候总是偶尔会遇到缺少 .whl 文件,这个时候我们该怎么办呢我你们呢首先进入网址(https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl),然后下载我们需要的 .whl 文件然后在cmd命令下进入刚刚下载的文件目录,然后输入pip install 刚才下载的...原创 2019-04-12 18:01:31 · 6776 阅读 · 0 评论 -
Ajax爬取今日头条街拍美图
运行环境:python 3.6.0"""抓取今日头条街拍美图,然后抓取到的图片去重后分类存放为了加快效率启动了多进程"""import requestsfrom urllib.parse import urlencodeimport osfrom hashlib import md5from multiprocessing.pool import Pool# 在创建二级目...原创 2019-04-10 21:06:48 · 569 阅读 · 0 评论 -
pyspider 爬取去哪儿旅游攻略
创建就不说了,直接撸代码运行环境:python 3.6.0#!/usr/bin/env python# -*- encoding: utf-8 -*-# Created on 2019-04-01 22:30:10# Project: qunarfrom pyspider.libs.base_handler import *class Handler(BaseHandle...原创 2019-04-10 21:05:09 · 556 阅读 · 0 评论 -
如何用windows通过python3建立最简单的服务器
今天来介绍一下如何用Python3的内置模块搭建一个简单的服务器,Python自带有服务模块而且python3相比于python2有很大不同之处,在Python2.x版本里,Python目录中含有BaseHTTPServer.py, SimpleHTTPServer.py, CGIHTTPServer.py文件,但是在Python3.x中,上面提到的模块http/server.py文件里了。...原创 2019-03-27 16:23:04 · 1032 阅读 · 0 评论 -
selenium操作Firefox无界面浏览器
之前做爬虫的时候经常需要selenium模拟,我经常用的是Firefox和Chrome浏览器,但是在使用的时候总是会打开浏览器才能正常抓取数据,无奈之下下载了PhantomJS,但是呢PhantomJS其实官方已经放弃维护了,所以在运行程序的时候经常会被提示其已被弃用,经常会以为自己是代码出问题了。UserWarning: Selenium support for PhantomJS has...原创 2019-03-31 19:10:14 · 7084 阅读 · 1 评论