韩淼燃
最近在更新运维专栏。欢迎大家来点赞,关注。
展开
-
爬虫第一课----socket
什么是socket?要想理解socket首先得熟悉一下TCP/IP协议族,TCP/IP(Transmission Control Protocol/Internet Protocol)即传输控制协议/网间协议,定义了主机如何连入因特网及数据如何再它们之间传输的标准,从字面意思来看TCP/IP是TCP和IP协议的合称,但实际上TCP/IP协议是指因特网整个TCP/IP协议族。不同于ISO模...原创 2019-04-04 09:13:47 · 640 阅读 · 0 评论 -
爬虫第十课---scrapy媒体管道和部署
'''补存:spiderMiddleware 中间件 处理返回的数据使用,和之前第五课学习的差不多媒体管道:pipline:对引擎返回的item数据进行处理process_itemscrapy 提供的 图片{image_urls} 文件在使用scrapy提供的pipelimne的时候,激活ImagePipe里(scrapy.pipelines.images.Images...原创 2019-05-29 22:44:59 · 286 阅读 · 0 评论 -
爬虫第九课---scrapy中间件
'''scrapy中间件获取数据模拟请求 headers User-Agentip地址cookies 每次请求之前,要先添加cookies信息scrapy 是会自动保存cookies信息process_request返回None scrapy继续处理这个Request返回Response scrapy 直接返回这个Response返回request scrap...原创 2019-05-22 23:10:07 · 408 阅读 · 0 评论 -
爬虫第八课--scrapy模拟登陆
'''1.Requset()实例中有很多参数,一般我们使用的get,如果使用post。使用参数method,post传递参数使用body,参数格式是json编码,也就是字符串我们使用post请求的第二种方法就是使用FormRequest(),传递参数还是使用formdata。2.日志级别error 》 info 》 debug设置日志的等级1》配置文件中配置LOG_LEVEL...原创 2019-05-15 23:45:06 · 263 阅读 · 0 评论 -
简单爬取搜狐新闻的数据
# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleclass SouhuSpiderSpider(CrawlSpider): name = 'souhu_spider' ...原创 2019-05-08 09:03:20 · 1565 阅读 · 0 评论 -
爬虫第七课--scrapy(三)爬取163新闻
这节课,我们学习一个新的爬取模板---crawlSpider'''crawlSpider类的基本使用切换模板scrapy genspider -t crawl 爬虫名称 爬取网址LinkExtractors :提取链接参数:allow()满足则表达式的值会提取 restrict_xpaths() 满足xpath路劲的值Rule流程:导入模块LinkExtr...原创 2019-05-06 22:06:03 · 379 阅读 · 0 评论 -
scrapy爬取智联,只用于学习,不能商用
# -*- coding: utf-8 -*-import scrapyimport jsonfrom ..items import ZhiLianItemclass SpiderZhelianSpider(scrapy.Spider): name = 'spider_zhelian' # allowed_domains = ['aaa'] start = 0 ...原创 2019-04-27 11:20:46 · 373 阅读 · 0 评论 -
爬虫第五课---scrapy(一)环境的安装,框架的基本介绍,运行流程和小案例
一、安装环境scrapy 安装win安装1.安装Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/Twisted‑18.9.0‑cp36‑cp36m‑win32.whl cp36 是python版本win32是python的位数2.命令安装pip install Twisted‑18.9.0‑cp36‑cp36m‑win3...原创 2019-04-14 13:30:15 · 326 阅读 · 0 评论 -
爬虫第六课---scrapy(二)案例2,爬取腾讯招聘
'''1.shell对象和selector对象scrapy shell就是一个交互式的终端作用:可以很好的调试启动:scrapy shell url如果url有参数,用引号把url包起来2.选择器selectorxpathextract:返回unicode字符串cssre'''废话不多说,直接上代码,然后解释。spider代码# -*- codi...原创 2019-04-21 15:43:23 · 335 阅读 · 2 评论 -
APP抓包设置
在这里我们使用的是夜神模拟器。直接百度下载就可以啦哈。1.首先打开win命令行ipconfig,找ipv4记下来2.安装fiddler,配置tools > options > connections下全部勾选,然后OK,重启3.然后我们在模拟器中开启浏览器,输入ipv4:8888,如果返回下面的图片,就是成功4.然后安装证书,5.然后给证书设置一个自己喜欢的...原创 2019-04-08 23:26:01 · 927 阅读 · 1 评论 -
安装pywin32(Python调用win api必看)
pywin32是一个第三方模块库,主要的作用是方便python开发者快速调用windows API的一个模块库。同时pywin32也是绝大部分windows上第三方python模块库的前提,例如wmi,如果没有安装pywin32是无法正常使用wmi这个三方模块库的。开始之前,小编强烈建议小伙伴使用python3。安装python3时,把pip勾选上,这时有pip我们就能很简单的安装上p...原创 2019-04-11 21:08:26 · 7300 阅读 · 1 评论 -
抓包工具的使用
一、Http代理使用socket搭建本地代理server:# 使用socket搭建本地代理'''server端'''import socketimport reserver = socket.socket()server.bind(('', 8181)) # ip,端口,元组形式server.listen(5) # 最多5个链接client = sock...原创 2019-04-08 09:05:05 · 333 阅读 · 0 评论 -
爬虫第三课---reuqests
'''第三方库,需要安装,pip install requests1.请求'''import requestsrequests.get() # get请求,如果get中有请求参数。我们使用如下params = {'wd': 'python'}url = 'http://www.baidu.com/s?'headers = {}r = requests.get(url, ...原创 2019-04-07 21:53:47 · 798 阅读 · 0 评论 -
爬虫第四课---网页解析
BeautifulSoup4的使用(文档https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html)1.安装 pip installBeautifulSoup4'''bs4的使用'''import refrom bs4 import BeautifulSoup#测试的htmlhtml_doc = ...原创 2019-04-10 21:31:56 · 267 阅读 · 0 评论 -
urllib批量下载百度图片
'''urllib批量下载百度图片'''import urllib.requestimport restart_url = 'http://image.baidu.com/search/index?tn=baiduimage&word=dahuaxiyou'res = urllib.request.urlopen(start_url).read().decode()imag...原创 2019-04-05 22:25:59 · 423 阅读 · 0 评论 -
urllib3批量下载百度图片
'''urllib3批量下载百度图片'''import urllib3import restart_url = 'http://image.baidu.com/search/index?tn=baiduimage&word=dahuaxiyou'http = urllib3.PoolManager()res = http.request('get',start_url).d...原创 2019-04-05 22:07:22 · 983 阅读 · 0 评论 -
爬虫第二课---urllib
import urllib.request'''普通请求,不设置headers'''# url = 'http://httpbin.org/get'#或post# #urlopen 发起请求# # req = urllib.request.urlopen(url)#get# req = urllib.request.urlopen(url,data='username=hu...原创 2019-04-04 09:36:31 · 271 阅读 · 0 评论 -
爬虫第十一课---scrapy_redis的使用以及爬取boss直聘代码
'''scrapy_redisrequest请求的共享我们使用基于内存存储的redis数据库处理,解决request请求调度的问题url去重scrapy_redis提供的组件Schedule dupefilter Pipeline SpiderRequest队列 Schedule安装 pip install scrapy_redis实现步骤修改原来的父类,继承...原创 2019-06-21 08:46:57 · 390 阅读 · 0 评论