初次运用scrapy爬取Ajax异步加载数据(陕西)

最新推荐文章于 2023-07-24 15:26:49 发布

Bi_1ngram4

最新推荐文章于 2023-07-24 15:26:49 发布

阅读量791

点赞数 1

分类专栏： scrapy 文章标签： scrapy Ajax 工作日志学习总结

本文链接：https://blog.csdn.net/Bi_1ngram4/article/details/101069258

版权

scrapy 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.运用scrapy写爬虫

①创建scrapy目录

②设置setting

③写items

④写爬虫

scrapy.Request()参数：
url: 需要请求，并进行下一步处理的url
callback: 指定该请求返回的Response，由那个函数来处理。
method: 一般不需要指定，使用默认GET方法请求即可
headers: 请求时，包含的头文件。一般不需要。
Host: media.readthedocs.org
User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0
Accept: text/css,/;q=0.1
Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding: gzip, deflate
Referer: http://scrapy-chs.readthedocs.org/zh_CN/0.24/
Cookie: _ga=GA1.2.1612165614.1415584110;
Connection: keep-alive
If-Modified-Since: Mon, 25 Aug 2014 21:59:35 GMT
Cache-Control: max-age=0
meta: 在不同的请求之间传递数据使用的。字典dict型
request_with_cookies = Request(url=“http://www.example.com”,
cookies={‘currency’: ‘USD’, ‘country’: ‘UY’},
meta={‘dont_merge_cookies’: True})
encoding: 使用默认的 ‘utf-8’ 就行。
dont_filter: indicates that this request should not be filtered by the scheduler.
This is used when you want to perform an identical request multiple times,
to ignore the duplicates filter. Use it with care, or you will get into crawling loops.
Default to False.
errback: 指定错误处理函数

2.scrapy中异步加载的处理

①分析页面是否为异步加载，打印源码

通常使用requests抓取页面的时候，得到的html源码可能和在浏览器中看到的不一样，在页面上则可以看到数据。
这是因为数据是听过ajax异步加载的，原始页面不会包含某些数据，原始页面加载完之后，会向服务区请求某个接口获取数据，然后数据才会被呈现在页面上，这其实就是发送了一个ajax请求。

②如果不是，用Xpath解析

③如果是，进一步分析，解析json，然后再解析数据

可在代码中模拟页面上的url，header，param，请求方式等信息来发送请求，来请求服务器接口来获取所需信息。

如果有翻页的话，参数中应该也有page参数，可以通过range函数循环页码把所所需的页的信息抓取出来。

然后通过解析json数据，一层一层取值，一一对应，在解析函数的最后要yield item

3.用scrapy存储数据到MySQL

存储item[‘example’]到对应表的对应列

4.scrapy运行脚本

from scrapy import cmdline
cmdline.execute(‘scrapy crawl shanxi’.split())

5.遇到问题

①

存库时注意替换数据中的一些字符，可能由于中文英文差异造成的字符问题，从而影响程序的运行和数据的储存。

②

在pipelines中，分别把key和value对应存到MySQL列中，遍历字典，代码如下：
#product_attr
for key, value in item[‘value’].items():
sql2 = “INSERT INTO product_attr(product_id,attr_first,attr_second,value) VALUES (%s,%s,%s,%s)”
value2 = (item[‘product_id’], ‘规格参数’, key, value)
self.cursor.execute(sql2, value2)
self.connect.commit()