爬虫
文章平均质量分 64
langezuibang
不是路不平,而是你不行,到底行不行,看你停不停,只要你不停,早晚都能行。
展开
-
scrapy简介
·什么是scrapy框架?scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。其是一个半成品,能帮用户实现专业网络爬虫。安装:pip install scrapy实现流程:1、Engine从Spider处获得爬取请求(request)2、Engine将爬取请求转发给SCHEDULER,用于调试3、Engine从SCHEDULER处获得下一个要爬取请求4、Engine从爬取请求通过中间件发送给DOWNLOADER5、原创 2021-04-08 21:02:21 · 2844 阅读 · 0 评论 -
关于IP代理的相关基础知识
代理:破解封IP这种反爬机制。什么是代理:----代理服务器。代理的作用:----突破自身ip访问的限制。----隐藏自身真实IP代理相关的网站:----快代理----西祠代理-----www.goubaijia.com代理ip类型:http://www.goubanjia.com/ #代理ip-http: 应用到http协议对应的url中-https: 应用到https协议对应的url中代理ip匿名度:-----透明:服务器知道该次请求使用了代理,也知道请求对应的真实ip原创 2021-03-13 17:06:44 · 355 阅读 · 0 评论 -
解决中文乱码的方法
今天跟路飞学习爬虫时,遇到的中文乱码。他提出了一种解决方法,而我在弹幕上也看到了一种方法。法1:在响应数据时加一句response.encoding = response.apparent_encoding法2: #通用处理中文乱码的解决方法 img_name = img_name.encode('iso-8859-1').decode('gbk')以上两种方法都可以解决中文乱码问题,不过第二种比较通用。你们可以自由选择。...原创 2021-03-02 21:13:31 · 3829 阅读 · 0 评论 -
跟路飞学爬虫(加油,你是最棒的!)
破解百度翻译需求:#post请求(携带了参数)#响应数据是一组json数据编写步骤:1、指定url2、进行UA伪装3、post请求参数处理(同get请求一致)4、发送请求5、获取响应数据6、持久化存储post请求:import requestsimport jsonif __name__ == "__main__": #1、指定url post_url = 'https://fanyi.baidu.com/sug' #2、进行UA伪装 heade原创 2021-02-22 19:37:45 · 269 阅读 · 0 评论 -
AJAX基础知识
什么是AJAX?AJAX 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术。XHR创建对象variable=new XMLHttpRequest();为了应对所有的现代浏览器,包括 IE5 和 IE6,请检查浏览器是否支持 XMLHttpRequest 对象。如果支持,则创建 XMLHttpRequest 对象。如果不支持,则创建 ActiveXObject :var xmlhttp;if (window.XMLHttpRequest) {// code for IE7+, F原创 2021-02-20 14:17:27 · 80 阅读 · 0 评论 -
跟路飞学爬虫(加油,你是最棒的!)
什么是爬虫?通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。爬虫的价值实际应用就业爬虫究竟是合法还是违法的?在法律中是不被禁止具有违法风险善意爬虫 恶意爬虫爬虫带来的风险可以体现在如下2个方面:爬虫干扰了被访问网站的正常运营爬虫抓取了收到法律保护的特定类型的数据或信息如何在使用编写爬虫的过程中避免进入局子的厄运呢?时常的优化自己的程序,避免干扰被访问网站的正常运行在使用,传播爬取到的数据时,审查抓取到的见容,如果发现了涉及到用户因此商业机.原创 2021-01-31 11:02:51 · 530 阅读 · 0 评论