![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网页爬取
柒⑤
这个作者很懒,什么都没留下…
展开
-
爬虫day7-线程池和进程池与队列
线程池和进程池与队列线程队列from queue import Queue# queue模块中的队列,只能保存一般数据或者多线程中产生的数据(多用于多线程,自带线程安全属性)# 队列数据结构:是容器,先进先出if __name__ == '__main__': # 1.队列基本用法 # 1)创建队列对象:Queue() q = Queue() # 2)添加数据(进):队列对象.put(数据) q.put(100) q.put(200)原创 2021-08-21 17:51:08 · 193 阅读 · 0 评论 -
爬虫day6-多线程多进程
多线程多进程多线程线程是操作系统能够进行运算调度的最小单位;它被包含在进程之中,是进程中的实际运作单位。多线程,是指从软件或者硬件上实现多个线程并发执行的技术。具有多线程能力的计算机因有硬件支持而能够在同一时间执行多于一个线程,进而提升整体处理性能。简单来说:线程是程序中一个单一的顺序控制流程;而多线程就是在单个程序中同时运行多个线程来完成不同的工作。多线程是为了同步完成多项任务,不是为了提高运行效率,而是为了提高资源使用效率来提高系统的效率。多线程是在同一时间需要完成多项任务的时候实现的。多线原创 2021-08-21 17:49:59 · 161 阅读 · 0 评论 -
爬虫day5-xpath和多线程
xpathxpath是一个解析网页的工具,解析对象是xml文档。专业术语树:整个html或xml结构节点:html中的每个标签,xml中标签就是节点根节点:树的第一个节点,html的节点就是html标签属性:节点属性(html终究是标签属性)from lxml import etree# xml数据结构# json数据和xml数据是两种通用的数据模式,用于不同语言之间进行数据交流"""将一个超市的商品数据进行传输:json:{ "name": "永辉超市", "a原创 2021-08-21 17:49:18 · 172 阅读 · 0 评论 -
爬虫day4-selenium和xpath
selenium和xpath网页前进后退和切换选择卡from selenium.webdriver import Chromeimport time# 页面前进后退b = Chrome()b.get('https://www.baidu.com')time.sleep(1)b.get('https://www.runoob.com')time.sleep(1)b.get('https://movie.douban.com/top250')time.sleep(1)# 后退b原创 2021-08-21 17:48:45 · 201 阅读 · 0 评论 -
爬虫day3-代理和selenium
代理IP的获取和selenium代理IP的使用首先自己到个个代理IP的官网上购买IP。蘑菇代理…等等import requests, time# 1.获取蘑菇代理中的代理ipdef get_ip(): response = requests.get('购买了代理IP后会给你一个获取IP的网址,这里就填写购买的网址') # 如果获取的是一个带有{xx}的数据则表示获取失败,隔段时间在获取 if response.text[0] == '{': print('原创 2021-08-21 17:48:13 · 135 阅读 · 0 评论 -
爬虫day2-bs4解析
bs4解析数据bs4的使用bs4是对爬取下来的整个网页数据经行筛选,筛选出我们自己想要的数据from bs4 import BeautifulSoup# 1. 准备需要解析的网页数据(实际是用request或者selenium获取)data = open('test2.html', encoding='utf-8').read()# 2. 创建BeautifulSoup对象(可以自动纠正数据中错误的html结构)# BeautifulSoup(数据, 解析器)soup = Beautif原创 2021-08-21 17:47:40 · 148 阅读 · 0 评论 -
爬虫day1-requests
requests爬取网页爬虫基础环境准备需要安装的第三方库:pip install requestspip install seleniumpip install lxmlpip install bs4若是安装时出现报错,可以试着在设置窗口页面下去下载,其次试着更新pip,pip的更新用语句:easy_install -U pip若是还解决不了就上网搜一搜。网页爬取数据时需要有一定的前端知识,不需要回写,只要认识就行,自己上网学习。requestsrequests是python基原创 2021-08-21 17:46:56 · 115 阅读 · 0 评论