scrapy
文章平均质量分 54
花阴偷移
水之积也无厚,则其负大舟也无力,目前从事数据采集和.net开发。
展开
-
curl 用法以及验证代理ip
说明: 1)在程序中,使用代理ip请求目标网站时,有的网站会返回403或其它错误,这时可以通过命令方式来验证代理ip是否可用。 在linux中,使用curl ,下面使用阿布云代理ip请求目标网站,来确认是否能正确响应数据curl -x "http://http-dyn.abuyun.com:9020" --proxy-basic --proxy-user H73IJ788GTJ0Q...原创 2023-06-20 11:08:00 · 664 阅读 · 0 评论 -
elasticsearch 索引mapping汇总
查看索引字段的映射类型GET studenttest/_mapping创建一个新的索引结构PUT /crawl_sensorexpert_sku_content{ "settings": { "number_of_shards" : 3, "number_of_replicas" : 1 }, "mappings": { "properties"...原创 2022-12-26 12:30:00 · 42 阅读 · 0 评论 -
scrapy elasticsearch 使用示例
1.安装elasticsearch-dsl 包pip3 install elasticsearch-dsl2.创建scrapy 项目 在项目结构中创建一个models文件夹, 有二个py文件,一个是__init__.py空文件,一个es操作的es_cnblogs.py文件 3. es_cnblogs.py文件代码如下 from datetime import dateti...原创 2022-08-03 15:12:00 · 66 阅读 · 0 评论 -
scrapyrt 部署到docker
一.背景 scrapyrt是实时抓取api框架,我们生产环境一直使用默认的python 3.6.8环境,来部署的scrapyrt。但由于自动化抓取playwright至少需要python 3.7以上,又因为阿里云centos 8默认的python 3.6.8升级后带来很多不便,现在需要将scrapyrt部署到docker中,在docker中scrapyrt基于python 3.8。 1....原创 2022-12-28 10:57:00 · 128 阅读 · 0 评论