![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
罚酒饮得
这个作者很懒,什么都没留下…
展开
-
python-ip代理池
import requestsfrom lxml import etreeimport timedef get_all(f): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.135 Safari/537.36' } for s in range(1, 11):.原创 2020-10-04 20:33:23 · 235 阅读 · 0 评论 -
多线程爬虫案例
1.目标网站:https://www.1point3acres.com/bbs/forum-28-1.html此处开始的若干页2.首先创建两个队列,一个页面队列和一个用于I/O的队列。顺便创建个锁,防止写的时候出问题page_queue = Queue()joke_queue = Queue()gLock = threading.Lock()3.用CSV存储数据fp = open('asd.csv','a+',newline='',encoding='utf-8')url = 'h原创 2020-10-04 20:31:14 · 1013 阅读 · 1 评论 -
2020-08-15 拉勾网反爬破解
拉勾网是目前为止遇到的反爬最强的网站之一。这里采用的是谷歌浏览器。第一步打开拉勾网,检查,输入java,找到如下图所示的地方。第二步找到以及等会要用的cookie,这里你如果直接用下面这个cookie,你会被反爬的。所以需要去尝试其他的cookie,让拉勾网认为你是第一次上这个网站。第三步清除浏览器缓存再去Headers里面你会找到多个cookie值,一个个的试试,我这儿是最后一个可以。第四步找到from data,里面的first第一页是true,后面的都是原创 2020-08-15 09:55:17 · 997 阅读 · 0 评论 -
python实现爬取下一页------while篇
def get_all(url,dbs): while(url): print("正在爬取:{}".format(url)) html = requests.get(url=url, headers=headers, timeout=100).text selector = etree.HTML(html) title_urls = selector.xpath('//div[@class="topic_list_detail"]//.原创 2020-07-25 10:04:34 · 317 阅读 · 0 评论 -
python实现爬取下一页------递归篇
def get_detail(url,dbs): #每个网页设置延时 time.sleep(random.random() * 3) selector = comp(url) title_url = selector.xpath('//div[@class="topic_list_detail"]//a[@class="title"]/@href') title_title = selector.xpath('//div[@class="topic_list_det.原创 2020-07-25 10:03:41 · 991 阅读 · 0 评论 -
xpath如何使用模糊查询
selector.xpath('//*[contains(@class, "common") or contains(@class, "new")]/a[last()]/@href')html中所有拥有class="common"或者class="new"的标签都会被爬下来,弊端是例如class="s_common"也会被爬下来,所以得分析网页common和new是否唯一...原创 2020-07-05 14:13:58 · 1492 阅读 · 0 评论 -
如何根据关键字爬取论坛所有的URL链接以及对应的标题
首先是分析网页从页面可以看出,所有的链接都在class="f1 bm"标签之内之后找到headers,获取User-Agent因此headers可以写成如下:headers = { 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',原创 2020-07-05 14:10:21 · 2488 阅读 · 0 评论