爬虫
网络爬虫入门
nikeylee
这个作者很懒,什么都没留下…
展开
-
session
requests.adapters.DEFAULT_RETRIES = 3session = requests.session()session.keep_alive = Falsesession.verify = Falsesession.proxies = proxiessession.headers = headersession.timeout = 5response = session.get(url=get_url)response.close()response.j原创 2020-11-09 14:39:22 · 373 阅读 · 0 评论 -
fake_useragent生成随机请求头UserAgent
目录一、fake_useragent的安装二、Python3中fake_useragent的使用输出ie,firefox,chrome,随机浏览器版本,对应的useragent;爬虫程序中的具体使用:随机请求头ua.random三、应用于scrapy爬虫项目在middlewares.py中自定义随机请求头的类一、fake_useragent的安装fake_useragent是第三方库,实现随机请求头的设置; 安装:pipinstall --userfake-usera...原创 2020-11-09 10:38:58 · 3100 阅读 · 2 评论 -
爬虫小工具
1、爬虫之请求头中加引号工具在浏览器中复制了请求头的参数(key:value),给参数增加单引号; 在getHeadersStr()方法的headers_str变量中粘贴请求头参数;import re"""正则匹配请求头加引号(单引号)"""def addSingleQuotation(headers_str): # 1 2 pattern = r"^(.*?):\s?(.*?$)" lines = [] for line原创 2020-10-27 13:23:07 · 218 阅读 · 0 评论 -
爬虫开发--常见问题解决方法
爬虫开发06--原创 2020-10-27 10:23:06 · 5526 阅读 · 7 评论 -
爬虫开发05--异步爬虫
爬虫开发05--原创 2020-11-12 19:34:28 · 553 阅读 · 0 评论 -
爬虫开发04--代理IP
代理IP反爬机制:检测请求的ip在单位时间内,请求访问的次数;超过设定的阈值,服务器拒绝请求的访问;--即封IP 反反爬策略:使用代理进行请求的发送; 代理:破解封IP的反爬机制; 代理服务器:实现IP伪装 在本机和web服务器间,搭建了一个中转桥梁,本机不直接发送请求到web服务器; 本机向代理服务器发起请求,代理服务器会把请求中转发送给web服务器;web服务器响应的数据,由代理服务器转发给本机; 代理作用: 可以突破自身IP访问的限制,不会因为请求多被封IP; 隐藏自身真实原创 2020-11-09 14:58:16 · 19522 阅读 · 0 评论 -
爬虫开发03--图片验证码和模拟登陆
图片验证码模拟登陆代理IP原创 2020-10-27 10:16:09 · 1666 阅读 · 1 评论 -
爬虫开发02--数据解析--xpath(首选)
xpath原创 2020-10-27 10:04:49 · 1776 阅读 · 0 评论 -
爬虫开发02--数据解析--bs4
bs4原创 2020-10-27 10:03:58 · 66 阅读 · 0 评论 -
爬虫开发02--数据解析--正则表达式re
数据解析原创 2020-10-26 18:11:36 · 185 阅读 · 0 评论 -
爬虫开发01--request模块
request模块python中原生的一款基于网络请求的模块,功能强大,简单便捷,效率很高; 模拟浏览器发请求; 同类的比较老的模块是urllib模块; 安装:pip install --user requestsrequest模块的编码流程指定url 发起请求 获取响应数据 持久化存储request实战1、获取不带参数的get请求的响应报文需求:爬取搜狗首页的页面数据爬取地址:https://www.sogou.com/获取不带参数的get请求的响应报文..原创 2020-10-22 19:41:03 · 1305 阅读 · 1 评论 -
爬虫的概念
什么是爬虫?通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程;爬虫的价值抓取互联网上的数据,将这些爬取的数据产品化,商业化; 自己的数据银行;爬虫数据举例Python技术文章大全 图书价格对比网 最漂亮美女图片网 最爆笑故事APP 新的聚合阅读器爬虫的合法性在法律中是不被禁止的,但是具有违法风险; 爬虫带来的风险: 爬虫干扰了被访问网站的正常运营; 爬虫抓取了受到法律保护的特定类型的数据或信息; 如何在使用编写爬虫的过程中,避免违...原创 2020-10-22 09:05:54 · 248 阅读 · 0 评论