![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
scrapy
没有竹蜻蜓的小叮当
觉得有用的博文知识点个赞+关注吧 博主将不定期更新文章
展开
-
scrapydweb启动报错:sqlite3.OperationalError: no such table: metadata
查了很多有说是python版本的问题,需要降低到3.6,经试验,应该是多个包版本不匹配的问题,最终解决了问题,把过程分享下来,有用的点个赞吧~原创 2022-12-06 11:36:56 · 860 阅读 · 4 评论 -
Scrapy中多个Spider对应多个pipeline情况
在spider中配置:# spider1class WeiboSpider(scrapy.Spider): name = 'weibo' custom_settings = { 'ITEM_PIPELINES': { 'XwNewsCmnt.pipelines.XwnewscmntPipeline': 300 } }# spider2class WeiboUserInfoSpider(scrapy.Spider):原创 2021-04-14 10:20:58 · 355 阅读 · 0 评论 -
scrapy adbapi 异步存入mysql的连接持久化
在初始化连接时在参数中添加 cp_reconnect=Truedbpool = adbapi.ConnectionPool('pymysql', host='', db='', user='', passwd='', port=3306, charset='utf8mb4', cp_reconnect=True)原创 2021-04-08 17:56:44 · 244 阅读 · 2 评论 -
xpath抓取去除数据空白符
XPATH中使用string()可以获取标签下的所有字符string(//*[@id="discuss"])往往取得的字符中会充斥着大量空白符,使用normalize-space()即可去掉所有空白符normalize-space(string(//*[@id="discuss"]))...原创 2020-04-28 11:15:43 · 3678 阅读 · 0 评论 -
Scrapy 只有在重试的时候使用代理
判断当前retry_times不为空def process_request(self, request, spider): if request.meta.get('retry_times'): proxy = self.get_random_proxy()原创 2020-01-14 23:51:05 · 447 阅读 · 0 评论 -
scrapy---twisted异步IO框架(实现数据的异步写入)
1.引导数据库pymysql的commit()和execute()在提交数据时,都是同步提交至数据库,由于scrapy框架数据的解析和异步是多线程的,所以scrapy的数据解析速度,要远高于数据写入数据库的速度。如果数据写入过慢,会造成数据库写入的阻塞,影响数据库写入的效率。通过多线程异步的形式对数据进行写入...转载 2020-01-14 16:20:37 · 434 阅读 · 0 评论