爬虫
文章平均质量分 58
SongErrors
不忘初心,方得始终。
仰望星空,脚踏实地。
大三/萌新/啥也不懂/啥也不会
展开
-
python爬虫之requests模块使用
requests模块使用requests介绍 python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高,作用是模拟浏览器发请求。requests模块的编码流程指定URL发送请求获取相应数据持久化存储环境安装pip install requests实战编码需求:爬虫搜狗首页的页面数据import requests# 一、指定urlurl = 'https://www.sogou.com/'# 二、发送请求# 三、用get请求返回一个响应对象resp原创 2022-02-14 15:50:43 · 497 阅读 · 0 评论 -
Python爬虫之Xpath解析
Xpath解析xpath解析原理实例化一个etree对象,且需要将被解析的页面的源码数据加载到该对象中调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获环境的安装pip install lxml如何实例化一个etree对象from lxml import etree1、将本地的html文件中的源码加载到etree对象中etree.parse(filepath)2、将互联网获取的源码加载到该对象中etree.HTML(page_text)x原创 2022-02-19 20:56:54 · 609 阅读 · 0 评论 -
python爬虫之代理IP
python爬虫之代理IP免费代理网站:快代理最好使用最新的免费代理,免费的很多都不能用from fake_useragent import UserAgentimport requestsurl = 'http://mip.chinaz.com/'proxies = { 'http': 'http://'+'ip:端口', 'https': 'https://'+'ip:端口'}headers = { 'user-agent': UserAgent().ra原创 2022-02-19 20:56:21 · 1743 阅读 · 0 评论 -
python爬虫之异步爬虫(多进程和多线程)
异步爬虫之多进程和多线程基本概念目的:在爬虫中使用异步实现高性能的数据爬取操作线程和进程的区别线程具有许多传统进程所具有的特征,故又称为轻型进程(Light—Weight Process)或进程元;而把传统的进程称为重型进程(Heavy—Weight Process),它相当于只有一个线程的任务。在引入了线程的操作系统中,通常一个进程都有若干个线程,至少包含一个线程。根本区别:进程是操作系统资源分配的基本单位,而线程是处理器任务调度和执行的基本单位资源开销:每个进程都有独立的代码和数据空间(程原创 2022-02-19 20:54:03 · 1876 阅读 · 0 评论