![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 85
scrapy框架
每 天 早 睡
不积跬步,无以至千里;不积小流,无以成江海
展开
-
scrapy框架中间件的使用以及scrapy-redis实现分布式爬虫
分布式爬虫:爬取在一台机器,解析在另一台机器,这就实现分布式爬虫。分布式基于原来的脚本改造。原创 2023-07-10 02:35:54 · 805 阅读 · 0 评论 -
爬虫框架scrapy基本原理
scrapy是python的爬虫框架,类似于django(python的web框架)。Mac、Linux执行,不存在任何问题Windows执行,如果安装失败,执行下面步骤:wheel官网(4)下载并安装pywin32(pywin32官网或github地址(5)下载twisted的wheel文件(twisted官网),执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl(6)最后执行。原创 2023-07-10 01:01:51 · 1227 阅读 · 0 评论 -
selenium用法
selenium:只要人能做的,都可以使用代码实现隐式,显式等待模拟前进后退切换选项卡执行js异常处理动作链:模拟点击,拖拽行为自动登录12306(前端能够检测到是否使用了selenium)获取登录的cookie继续使用selenium:add_cookie使用requests携带cookiexpath语法:lxml为例(lxml是解析器),bs4、re、selenium自带的、lxml这些都有xpath、css。原创 2023-07-04 01:02:43 · 3804 阅读 · 0 评论 -
解析库bs4的使用
html是xml的一种,解析html,使用requests返回的数据,可能是json、html、文件,再使用bs4解析html格式。所有解析库,通常会有自己的查找方式(bs4就是find和find_all),还会支持css和想xpath选择。find:找到的第一个 find_all:找到的所有。bs4:解析xml格式的模块,从xml中找想要的数据。xxx.xml(uwsgi,java的配置文件居多)5 xpath:在xml中查找文档的语言。标签名>标签名 紧邻的子。遍历和搜索,可以混合用。原创 2023-06-29 00:05:55 · 1414 阅读 · 0 评论 -
requests代理使用以及其他操作
目前写死了,后期我想,每次访问,随机取一个,把一堆字典,放到列表中,每次从列表中取一个(简单的代理池)https=http+ssl(ssl证书:第三方证书):传输过程中加密了,可以截获到。因为网站访问频率过高,会封ip、限制ip访问次数(后端频率类)。requests与其他服务交互的实际应用---->短链生成。大部分网站都是https,需要证书验证,代码怎么改进呢?自己爬取免费代理网站,解析出ip地址,组装成字典。使用代理,隐藏访问者ip(正向代理)1、强制使用http连接不验证证书。原创 2023-06-28 21:56:37 · 1386 阅读 · 0 评论 -
爬虫基本原理
1 爬虫介绍。原创 2023-06-28 01:20:34 · 94388 阅读 · 35 评论