![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 71
Eshel_
这个作者很懒,什么都没留下…
展开
-
Spider10多线程
1. b站数据爬虫 from selenium.webdriver import Chrome, ChromeOptions import time from bs4 import BeautifulSoup from re import search from concurrent.futures import ThreadPoolExecutor import csv from queue import Queue options = ChromeOptions() options.add_exper原创 2022-05-20 19:06:43 · 285 阅读 · 0 评论 -
Spider09队列和线程池
1. 作业豆瓣电影 import requests from threading import Thread import csv from bs4 import BeautifulSoup headers = { 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36' } de原创 2022-05-19 16:51:39 · 139 阅读 · 0 评论 -
Spider08多线程基础
1. 爬虫流程 获取网页数据 --> 解析数据 --> 保存数据。 1)第一步:确定目标网页; 2)第二步:找数据接口: a. 有数据接口 --> 直接使用requests对数据接口发送请求 -> 网页数据获取完成 b. 没有数据接口 --> 第三步 3)第三步:用requests直接对网页发送请求(可能涉及到添加user-agent或者添加cookie): a. 请求结果中有目标数据 --> 网页数据获取完成 b. 请求结果中没有目标数据 --> 第原创 2022-05-18 22:04:16 · 228 阅读 · 0 评论 -
Spider07selenium进阶登录反爬
1. 选项卡切换 from selenium.webdriver import Chrome from selenium.webdriver.common.keys import Keys import time from bs4 import BeautifulSoup 1.1 创建浏览器对象 b = Chrome() 1.2 打开网页 b.get('https://www.cnki.net/') 1.3 搜索论文 search = b.find_element_by_id('txt_SearchT原创 2022-05-17 20:59:23 · 492 阅读 · 0 评论 -
Spider06selenium
1. selenium打开网页 导入所需包 from selenium.webdriver import Chrome import time import re from bs4 import BeautifulSoup from lxml import etree 1.1 创建浏览器对象 b = Chrome() 1.2 打开网页 打开网页(需要爬取网页数据的网页)。 b.get('https://movie.douban.com/top250') # 等待 time.sleep(1) 1.3原创 2022-05-17 20:57:43 · 141 阅读 · 0 评论 -
Spider05
1. Xpath解析 1.1 XPth XPth:是一门在XML文档中查找内容的语言。 XML文档:存储和传输数据的。 --> json数据。 1.2 json和XML区别 1)json数据对机器友好型语言。 2)XML对人类友好型语言。 1.3 XPath根据什么在XML查找内容 1)XML文档中有很多节点。例如:根节点(文档节点)、属性节点、内容节点、元素节点等。 2)xml文档是树形结构。 xml_str = """ <supermarket> --> 根节点(文档节点)原创 2022-05-17 20:50:54 · 96 阅读 · 0 评论 -
Spider04
1. BeautifulSoup4使用 from bs4 import BeautifulSoup html = """ <html><head><title>The Dormouse's story</title></head> <body> <p class="title" name="dromouse"><b>The Dormouse's story</b></p> <p c原创 2022-05-17 20:33:42 · 134 阅读 · 0 评论 -
Spider03
1. html文字标签 1)标题标签:自带加粗、自带换行(h1~h6) <h1>我是一级标签</h1> <h2>我是二级标签</h2> <h3>我是三级标签</h3> <h4>我是四级标签</h4> <h5>我是五级标签</h5> <h6>我是六级标签</h6> 2)段落标签:p:自带换行 <p>大熊猫(学名:Ailuropoda melanoleuc原创 2022-05-16 22:30:18 · 198 阅读 · 0 评论