今天爬虫遇到个很奇怪的问题,整个测试大致是这样的:
采用scrapy shell测试:
scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36" "https://book.douban.com/tag/"
# 代码一
from pyquery import PyQuery as pq
doc = pq(response.text)
aa = []
bb = []
for i in na:
for item in doc(f'a[name="{i}"][class="tag-title-wrapper"]').items():
# 测试一的写法,直接用aa得到生成式的结果,结果有缺失
aa = [x.attr("href") for x in item.siblings(".tagCol").find("a").items()]
#测试二的写法,用一个外面的列表得到结果,bb能得到想要的结果,但也存在疑问
[bb.append(x.attr("href")) for x in item.siblings(".tagCol").find('a'.items())]
当爬取数据条目时,测试一的结果压根不是想要的结果,但是测试二的结果却是准确的结果。但同时测试二的