- 博客(4)
- 资源 (1)
- 收藏
- 关注
原创 Python连接Hive数据库
import pyhivefrom pyhive import hiveimport pandas as pdimport key_oneclass LinkHive(object): def __init__(self,host,port,username,password,database): self.host = host self.port = port self.username = username self.p
2021-07-31 23:09:09 5817 4
原创 给我爬!三天掌握Scrapy(二)
在三天掌握Scrapy(一)中我们简单的介绍了Scrapy的实现原理,并且搭建了一个使用Scrapy的小小爬虫,本文让我们来深入了解一下Scrapy。一、翻页实现很多时候我们在网页中爬取的内容都需要进行翻页的操作,下面我们来了解一下如何用Scrapy来实现翻页操作。想要实现翻页操作,我们就要找到下一页对应的url地址,找到了地址之后构造出url对应的请求对象,然后传递给引擎就可以了。找到页码的url构造url对应的请求对象scrapy.Request(url,callback)call.
2021-07-31 18:45:55 997 15
原创 给我爬!3天掌握Scrapy(一)
大家好,欢迎来到二哥的爬虫频道,本次二哥准备放弃周末爆更三天给大家带来Scrapy教程,记得三连呦~一、认识Scrapy
2021-07-25 15:38:42 3362 33
原创 Python爬虫|反爬初体验
前言:使用Python爬虫是当下最火的一种获取数据的方式,当我们对一些小型网站进行爬取的时候往往没什么阻碍,而当我们爬取大型网站的时候经常会遇到禁止访问、封禁IP的情况,这也是我们触发反爬机制的体现,本文二哥来带领大家了解几种简单高效的反爬对策。目录一、浏览器模拟(Headers)二、IP代理三、Cookies模拟一、浏览器模拟(Headers)浏览器模拟是最常用的一种反爬方式。设想一下:一个网站不停的被同一个版本的浏览器频率的访问,那大概了就要被认为是机器人了。所以上有政策.
2021-07-10 15:52:16 2146 13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人