爬虫
文章平均质量分 84
即使再小的船也能远航
邮箱:1121964082@qq.com
vx:1121964082
展开
-
【爬虫】5.5 Selenium 爬取Ajax网页数据
AJAX 简介任务目标现在的网页中大量使用了Ajax技术,通过JavaScript在客户端向服务器发出请求,服务器返回数据给客户端,客户端再把数据展现出来,这样做可以减少网页的闪动, 让用户有更好的体验。我们先设计一个这样的网页,然后使用 Selenium 编写爬虫程序爬取网页的数据。创建Ajax网站创建服务器程序编写爬虫程序原创 2023-08-29 15:48:22 · 2460 阅读 · 0 评论 -
【爬虫】4.3 Scrapy 爬取与存储数据
在这个程序中采用文件存储爬取的数据,BookPipeline 类中先定义一个类成员count=0,用它来记录process_item调用的次数。如果是第一次调用(count=1)那么就使用语句fobj=open("books.txt","原创 2023-06-12 15:29:54 · 2822 阅读 · 0 评论 -
【爬虫】4.2 Scrapy 中查找 html 元素
Xpath简介1. Scrapy 的 Xpath 简介(1)使用xpath查找HTML中的元素2. Xpath 查找 html 元素(2)"//"与"/"的使用(3)使用"."进行Xpath连续调用(4)extract与extract_first函数使用(5)获取元素属性值(6)获取节点的文本值(7)多个文本节点值(8)使用condition限定tag元素(9)使用position()序号来确定所选择的元素使用"*"代表任何element元素,不包括Text、Comment的结点原创 2023-06-11 19:02:49 · 2652 阅读 · 0 评论 -
【爬虫】3.5 实践项目——爬取网站的图像文件
实践项目——爬取网站的图像文件1. 项目简介 指定一个网站(例如中国天气网站),可以爬取这个网站中的所有图像文件,同时把这些文件保存到程序所在文件夹的images子文件夹中。 首先设计了一个单线程的爬取程序,这个程序会因网站的某个图像下载过程缓慢而效率低下,为了提高爬取的效率,另外设计了一个多线程的爬取程序。在多线程程序中,如果一个图像下载缓慢,那么也就是爬取它的那个线程缓慢,不影响别的线程的爬取过程。2. 单线程爬取图像的程序3. 多线程爬取图像的程序原创 2023-06-05 01:22:38 · 990 阅读 · 0 评论 -
【爬虫】3.4 爬取网站复杂数据
1. Web服务器网站2. 爬取网站的复杂数据3. 爬取程序的改进原创 2023-06-04 20:07:34 · 5297 阅读 · 0 评论