爬虫
文章平均质量分 52
爱喝水的小鲨鱼
Python领域优质创作者,获的过蓝桥杯国赛二等奖,主要学习方向有Python、机器学习、数据挖掘、数据分析、网络爬虫
展开
-
lxml&xpath一站式教学
lxml&xpath一站式教学 文章主要讲解的一些lxml和xpath的常用方式包括:XPath 概览、安装lxml、xpath 常用表达式、获取所有节点、获取子节点、获取父亲节点、属性匹配、获取文本、获取属性、属性多值匹配、多属性匹配、按序选择、节点轴选择、总结原创 2023-01-12 08:57:32 · 8263 阅读 · 186 评论 -
Python Selenium库的使用【从安装到实战】
Selenium从安装到项目实战,本教程用百度网易等大型网站做实例,最后有一个网易的自动登录的项目,让初学能够更好的理解每一个操作的实现方式和作用。还有一些自己在写项目积累的小技巧,包括单不限于伪装浏览器,提取元素,提高性能...Selenium简介Selenium基础操作、定位UI元素、鼠标动作链、键盘常用动作、下拉列表,填充表单、非select元素、select元素、弹窗处理、页面的前进和后退、获取页面的Cookies、获取页面的url、页面等待......原创 2022-07-11 21:50:18 · 12361 阅读 · 14 评论 -
爬虫实现并发爬取
线程(英语:thread)是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。多线程实现的流程使用一个pageQueue队列保存要访问的网页同时启动多个采集线程,每个线程都要从网页页码队列pageQueue中取出要访问的页码,构建网址,访问网址并爬取数据,操作完一个网页后再从网页队列中选取下一个页码,依次进行,直到所有的页码都已访问完毕,所有采集线程保存在threadCrawls中使用一个dataCode来保存所有的网页代码,每个线程获取到的数据都应该放入队列中同时原创 2022-07-10 17:41:46 · 1511 阅读 · 0 评论 -
网络爬虫基础知识必知必会
网络爬虫又称网页蜘蛛,网络机器人,是一种按照一定规则,自动请求万维网网站并且提取网页信息的程序或脚本Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots ExclusionProtocol),是一种网届通行的道德规范,围绕搜索技术应服务于人,同时尊重信息提供者的意愿,并维护其隐私权;网站有义务保护其使用者的个人信息和隐私不受侵犯。网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取. 根据协议,网站管理员可以在网站域名的根目录下放一个robots.t原创 2022-07-06 20:32:51 · 969 阅读 · 0 评论 -
pythonScarpy框架项目实战
爬虫实战创建项目项目需求分析网站爬虫文件spiders`items.py``pipelines.py``settings.py`总结:创建项目在终端输入 scrapy startproject xiaomai进入到项目实例下 cd xiaomai创建爬虫文件夹scrapy genspider xiaomai_pro www.xxx.com项目需求目标网站:https://www.chinaseed114.com/目的需求 获取所有小麦种子的信息https://www.chinaseed11原创 2022-04-28 18:15:52 · 1635 阅读 · 1 评论 -
爬虫使用xpath解析时返回为空,获取不到相应的元素的原因和解决办法
xpath写的对,但是返回值为空在写爬虫的时候解析网页,使用最多的解析方式就是xpath解析,但是在使用在使用xpath解析的时候,通常会遇到会获取不到相应元素的情况原因通常是前端做的一些反爬措施,在编写网页的时候通常省略一层标签,但是被省略的标签浏览器会自动补充,修改成正确的结构我们通过浏览器进行检查的时候,看到的代码结构是已经被浏览器修改后的,而爬虫获取到的是源代码所以根据修改后的xpath解析源代码会找不到相应的元素...原创 2022-04-22 20:29:20 · 18800 阅读 · 13 评论 -
爬虫请求超时
f1 = open('wen.txt','r')print(f1.read(3))# 文件指针用于表明文件读取的其实位置, 文件指针表明了文件将要从那个位置开始读写#tell() 函数 返回文件指针的位置print(f1.tell())''' seek() 函数用于将文件的指针移动到指定的位置'''''' split() 函数 '''str1 = open('wen.txt')print(str1.read())str1.seek(0)print(str1.tell原创 2021-04-29 22:59:43 · 202 阅读 · 0 评论 -
爬取药监总局各个公司的信息
import requestsimport json# 网页中有的数据是动态加载的# 首页中对应的企业信息数据是通过ajax动态请求到的''' http://scxk.nmpa.gov.cn:81/xk/itownet/portal/dzpz.jsp?id=a8294d55ca1e448d8456f75f49f331df '''# 获取不同企业的idurl = ' http://scxk.nmpa.gov.cn:81/xk/itownet/portalAction.原创 2021-05-23 08:40:50 · 209 阅读 · 0 评论 -
Scrapy基础详解
scrapy框架scrapy框架框架是一个集成很多功能并且具有很强通用性的一个项目模板如何学习框架专门学习封装各种功能的详细用法什么是scrapy框架爬虫中的一个明星框架,功能:高性能的的持久性的的储存,异步的数据下载,高性能的数据解析,分布式scrapy框架基本使用环境的安装windows:pycharm 中直接就可以安装 pip install scrapy创建一个工程:scrapy startproject xxxcd xxx在spide原创 2021-10-11 19:58:22 · 1184 阅读 · 0 评论 -
解决Scrapy请求丢失问题
在使用Scrapy爬取多页数据时,容易出现丢失请求,数据爬取不完整的问题 def parse_city(self, response): month_urls = [] li_list = response.xpath('/html/body/div[7]/div[1]/div[13]/div/div/ul/li/a/@href').extract() for li in li_list: day_q = li[-11:-5]原创 2021-08-17 13:04:30 · 1063 阅读 · 0 评论 -
爬取空气质量网(待优化)
spiderimport scrapyfrom urllib import parsefrom selenium import webdriverfrom air_qualityPro.items import AirQualityproItemcity_names = ['郑州','开封','洛阳','平顶山','鹤壁','新乡','焦作','濮阳','许昌','漯河','三门峡','南阳','商丘','信阳','周口','驻马店']class AirQualitySpider(s.原创 2021-07-31 16:49:08 · 247 阅读 · 0 评论 -
爬取网易新闻
wangyi.pyimport scrapyfrom selenium import webdriverfrom wangyiPro.items import WangyiproItem''' 可以尝试用这个项目做boss直聘的项目 python期末作业 空气质量分析也可以参考'''class WangyiSpider(scrapy.Spider): name = 'wangyi' # allowed_domains = ['www.wngyi.com'].原创 2021-07-25 09:34:40 · 889 阅读 · 0 评论
分享