Python爬虫
文章平均质量分 51
主要介绍Python知识
咕咕嘎嘎77
这个作者很懒,什么都没留下…
展开
-
Python爬虫:选项卡切换和xpath解析
选项卡切换和xpath解析京东商品50页数据爬虫from selenium.webdriver import Chrome, ChromeOptionsfrom selenium.webdriver.common.keys import Keysimport time, csvfrom bs4 import BeautifulSoupoptions = ChromeOptions()options.add_experimental_option('excludeSwitches', ['en原创 2022-03-19 23:44:51 · 867 阅读 · 0 评论 -
Python爬虫:接口和selenium基础-
接口和selenium基础豆瓣电影top250信息爬取import requestsfrom bs4 import BeautifulSoupfrom re import searchimport csvimport timedef get_one_page(page): headers = { 'cookie': 'bid=g16urOELfcQ; douban-fav-remind=1; __gads=ID=3f57e16f48f82cf2-2222dd78d6原创 2022-03-19 23:41:34 · 640 阅读 · 0 评论 -
Python爬虫:指令创建虚拟环境和程序打包
指令创建虚拟环境和程序打包指令创建虚拟环境1.Python程序运行的方式使用专业的Python开发工具(例如: Pycharm)用指令运行Python程序:(win)python py文件路径(mac)python3 py文件路径2.操作系统常用指令查看当前文件夹中的内容:dir(win)、ls(mac)cd指令 - 进入文件夹cd 文件夹路径注意:Windows操作系统,如果要进入的文件夹和你当前所在的文件夹不在一个盘里,那么cd前需要先切盘,切盘的方法 -原创 2022-03-29 20:19:09 · 1472 阅读 · 0 评论 -
Python爬虫:常见的反爬
常见的反爬爬虫流程确定爬虫对象(爬哪个网页的数据)找接口有接口:直接对接口发送请求成功(直接json解析)失败就进入下一步没有接口,直接进入下一步用requests直接对网页地址发送请求请求成功 -> 解析数据(bs4、lxml)请求失败 -> 尝试添加user-agent和cookie,成功就解析,失败进入下一步用selenium打开网页,获取网页内容请求成功 -> 解析数据(bs4、lxml)请求失败 -> 找失原创 2022-03-21 19:53:40 · 1221 阅读 · 0 评论 -
Python爬虫:selenium高级用法
selenium高级用法安居客租房信息爬取import refrom selenium.webdriver import Chromefrom bs4 import BeautifulSoupimport time, os, csvb = Chrome()is_first = True # 是否是第一次def save_data(html: str): soup = BeautifulSoup(html, 'lxml') all_house_div = sou原创 2022-03-19 23:43:05 · 401 阅读 · 0 评论 -
Python爬虫:多线程的应用和pdf文件相关操作
多线程的应用前程无忧岗位爬虫import requestsfrom re import searchfrom multiprocessing import Process, Queuefrom concurrent.futures import ThreadPoolExecutorfrom threading import Threadimport json, csvdef get_html(name, page, queue): print(f'====={name}: {pa原创 2022-03-24 19:30:14 · 1353 阅读 · 0 评论 -
Python爬虫:requests和bs4
requests和bs4requests的用法requests是Python用于网络(http)请求的第三库,也是爬虫获取网络数据的重要工具,使用的时候需要导入import requests1. 向目标地址(网络地址)发送请求语法:requests.get(url,*,headers, proxies, timeout) - 以指定的方式给地址发送网络请求,返回值是服务器返回的响应对象参数说明:url - 字符串;请求的网络地址,可能是目标网站的网址也可能是数据接口原创 2022-03-19 23:40:22 · 2493 阅读 · 0 评论 -
Python爬虫:通信和线程池进程池
通信和线程池进程池线程间通信导入线程队列from queue import Queueimport timefrom random import randint同一个进程中的多个线程可以直接通信(一个线程可以直接使用另外一个线程中产生的数据)通信原则:使用全局变量from threading import Thread, current_threadfrom queue import Queueimport timefrom random import randint#原创 2022-03-23 20:49:12 · 197 阅读 · 0 评论