![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
Minions__
划水划水
展开
-
B站弹幕评论抓取
B站弹幕评论抓取#!/usr/bin/env python# -*- coding:utf-8 -*-# @Author: Minions# @Date: 2021-04-28 10:59:25# @Last Modified by: Minions# @Last Modified time: 2021-04-28 21:15:36import requestsfrom lxml import etreeimport reimport jsonimport timeimport原创 2021-04-28 21:25:48 · 1521 阅读 · 1 评论 -
多线程爬虫(生产者消费者模式)
常规爬虫# -*- coding:utf-8 -*-import requestsfrom lxml import etreefrom urllib import requestimport osimport redef parse_page(url): headers = { "user-agent": "Mozilla/5.0 (Windows NT ...原创 2019-08-22 21:51:36 · 1152 阅读 · 1 评论 -
selenium配置ip代理和无头selenium
配置ip代理# -*- coding:utf-8 -*-from selenium import webdriverproxy = 192.168.3.9:8925chrome_options= webdriver.ChromeOptions()chrome_options.add_argument('--proxy-server={0}'.format(proxy))driver...原创 2019-08-01 22:07:09 · 860 阅读 · 0 评论 -
XPath介绍与使用
XPath简介:XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言,简单的来说,就是定位元素的位置百科XPath谷歌浏览器安装xpath helper插件xPath helper是一款Chrome浏览器的开发者插件,安装了xPath helper后就能轻松获取HTML元素的xPath,程序员就再也不需要通过搜索html源代码,定...原创 2019-08-10 17:44:17 · 448 阅读 · 0 评论 -
Selenium+chromedriver获取动态数据
动态数据需要手动刷新,或者直接分析接口,但是有的接口分析复杂度高,这个时候我们可以利用Selenium帮我们完成什么是Selenium:Selenium相当于是一个机器人。可以模拟人类在浏览器上的一些行为,自动处理浏览器上的一些行为,比如点击,填充数据,删除cookie等。chromedriver是一个驱动Chrome浏览器的驱动程序,使用他才可以驱动浏览器。当然针对不同的浏览器有不同的dri...原创 2019-08-09 21:54:53 · 3519 阅读 · 0 评论 -
selenium采集1688简单信息
1688信息采集首先进入1688可以看见多种类别信息我们选择其中的一种,例如选择女装之后,又会有很多的类别将类别保存到列表,方便下面继续运行detail_urls = []categories = driver.find_elements_by_xpath("//div[@class='ch-menu-item']/div[@class='ch-menu-item-list']/u...原创 2019-08-08 08:51:38 · 1517 阅读 · 0 评论 -
cookie信息登录
cookiecookie是什么?在网站中,http请求是无状态的。也就是说即使第一次和服务器连接后并且登录成功后,第二次请求服务器依然不能知道当前请求是哪个用户。cookie的出现就是为了解决这个问题,第一次登录后服务器返回一些数据(cookie)给浏览器,然后浏览器保存在本地,当该用户发送第二次请求的时候,就会自动的把上次请求存储的cookie数据自动的携带给服务器,服务器通过浏览器携带的数...原创 2019-08-03 20:36:46 · 851 阅读 · 0 评论 -
ProxyHandler处理器(代理设置)
代理ip使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬取。在urllib.request库中,通过ProxyHandler来设置使用代理服务器,下面通过例子来说...原创 2019-08-03 11:53:20 · 164 阅读 · 0 评论 -
urllib库
urllib库Python做爬虫的优点Python生态极其丰富,诸如Request、Beautiful Soup、Scrapy、PySpider等第三方库实在强大Python语法简洁易上手,分分钟就能写出一个爬虫(有人吐槽Python慢,但是爬虫的瓶颈和语言关系不大)urllib库是是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务...原创 2019-08-02 20:16:22 · 238 阅读 · 0 评论