爬虫
晴时初遇雨
多动脑才不会生锈
展开
-
tapd获取相应内容
目前TAPD是把内容放在了POST的响应数据中了1. 如何获取到TAPD的网址首先打开tapd的buglist所在页,F12调出控制台,选择NetWork,先清空原先的请求数据,然后点击buglist的第二页可以很清晰的找到有个页面叫bugs_list的其次选择到Preview栏预览查看是否是想要的内容2. 如何请求把请求的数据放在postman中进行调试请求,成功获取到数据的话,用python的请求写法传入相应的参数即可,删除多余的请求数据,优化url。3. 将响应数据转为JSONi原创 2022-03-24 10:31:25 · 1125 阅读 · 1 评论 -
爬取Tapd的缺陷记录
# -*- coding: utf-8 -*-import scrapyfrom urllib.parse import urlparse, parse_qs,parse_qslclass TapdSpider(scrapy.Spider): name = 'tapd' allowed_domains = ['tapd.cn'] url = 'https://www.tapd.cn/xxxxxxxx/bugtrace/bugreports/my_view&page={原创 2020-08-26 19:44:44 · 2320 阅读 · 4 评论 -
爬虫之meta参数
meta属性是字典,字典格式即{‘key’:‘value’},字典是一种可变容器模型,可存储任意类型对象。request中meta参数的作用是传递信息给下一个函数,这些信息可以是任意类型的,比如值、字符串、列表、字典…方法是把要传递的信息赋值给meta字典的键,分析见如下语句(爬虫文件):class example(scrapy.Spider):name=‘example’allowed_domains=[‘example.com’]start_urls=[‘http://www.example.c原创 2020-08-26 17:16:21 · 1179 阅读 · 0 评论 -
python——scrapy中Request参数
介绍Request类是一个http请求的类,对于爬虫而言是一个很重要的类。通常在Spider中创建这样的一个请求,在Downloader中执行这样的一个请求。同时也有一个子类FormRequest继承于它,用于post请求。在Spider中通常用法: yield scrapy.Request(url = ‘zarten.com’)类属性和方法有:urlmethodheadersbodymetacopy()replace([url, method, headers, body, cooki原创 2020-08-25 17:40:58 · 1236 阅读 · 0 评论 -
xpath取出某个标签下多个标签的所有文本信息三种方法
爬虫爬取数据有时候我们需要爬取多个标签的文本内容,或者需要保留标签属性,就要连同标签一起拿下来。你可以写正则,今天我介绍一种用xpath爬取的方法。下边第一种方法就可以连同HTML标签一起爬下来,后两种能爬取所有文本信息,但没有了标签属性:①第一种方法可以取出某个标签内的HTML字符串,包含各种标签属性,输出的结果就是网页正常显示的文章部分的HTML。 html_content3 = requests.get(details_url).text html = etree.HTML(html_转载 2020-08-25 15:43:57 · 6363 阅读 · 0 评论 -
使用scrapy爬取前程无忧51job网站
求助看下以下哪里出现问题导致拿到了数据但是不能保存到mongodb中spider主程序的py文件# -*- coding: utf-8 -*-import scrapyimport jsonimport refrom Job.items import JobItemclass DataSpider(scrapy.Spider): name = 'data' allowed_domains = ['jobs.51job.com', 'search.51job.com']原创 2020-08-25 06:43:40 · 3471 阅读 · 3 评论 -
scrapy爬取腾讯招聘信息出现的坑
1、问题再爬取腾讯招聘信息时出现下面的信息。2019-10-01 18:16:26 [scrapy.utils.log] INFO: Scrapy 1.7.3 started (bot: tencent)2019-10-01 18:16:26 [scrapy.utils.log] INFO: Versions: lxml 4.4.1.0, libxml2 2.9.9, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.7.0, Python转载 2020-08-23 04:29:22 · 1017 阅读 · 4 评论