Python爬虫
二月十六
数据库交流群:195233677
展开
-
Scrapy抓取接口中文数据显示问号问题
scrapy.FormRequest抓取接口数据中文显示问号问题表象原因分析处理办法问题表象近期在抓取数据的时候,数据是用Js通过接口加载的,需要POST form-data数据过去抓取。yield scrapy.FormRequest(url=url, method='POST',headers=self.headers, formdata=self.data, callback=self.parse, dont_filter=True, errback=self.errback)这时候原创 2020-11-20 14:05:03 · 2202 阅读 · 0 评论 -
Python(py3fdfs)上传到fastdfs配置store_serv.ip_addr问题
最近上传图片到fastdfs,在本地的时候没有问题,要上传到生产服务器的时候,报了一个“Error: 10060 connect to b'192.168.1.149':23000. 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。”这样提示的问题,和我们负责服务器的运维沟通了一下,原来是storeip配置成内网地址了,访问fastdfs先访问tracker服务器,会返回storeip地址,返回的这个地址是一个192.168这样一个内网地址,无法从我本地传到服务器,没办法...原创 2020-11-03 14:39:18 · 2025 阅读 · 1 评论 -
scrapy.Request callback不执行
上一篇博客介绍了Scrapy Post Request payload数据的问题,本篇记录一下scrapy.Request callback不执行的问题。 1、大家都说的解决方式,虽然没有解决我的问题,但是还是写到这里,算是一个总结:1.在scrapy.Request方法里边加上参数dont_filter=True(去重)2.增加是不是allowed_domains范围内的url3.yield Request 改为yield scrapy.http.Request...原创 2020-10-10 18:07:21 · 3762 阅读 · 1 评论 -
Scrapy Post Request payload数据
用Scrapy采集一些数据,关于Post方式和Request payload数据类型,做几点记录。 1、Scrapy怎么使用Post方式抓取: 重写start_requests方法,在你的spiders里写上: def start_requests(self): # 循环采集链接 for url in self.start_urls: # 格式化数据 dumpJson =...原创 2020-10-10 17:57:39 · 1912 阅读 · 0 评论 -
Python(py3fdfs)上传到fastdfs配置store_path问题
使用py3fdfs上传图片到fastdfs的时候,发现一个问题,没有设置store_path的地方,后来在读源代码的时候,发现 这里是有store_path_index这个值,只是我没有找到怎么在外边更好的设置这个值(原谅我对Python、py3fdf不熟悉……),我就用了一个比较笨的方法实现了设置store_path_index这个值。 外部调用上传的代码是:ret_upload = client.upload_by_filename('C:/Us...原创 2020-07-21 14:14:43 · 1465 阅读 · 1 评论 -
Python Scrapy 上传图片到FastDfs(py3fdfs)
fastdfs是一个很好用的开源分布式文件存储系统,最近用到Scrapy抓取一些图片上传,遇到一些问题记录一下。 首先安装包py3fdfs,不再详细说了,然后要新建一个conf配置文件,主要设置tracker_server服务地址:connect_timeout=30network_timeout=60tracker_server = 192.168.1.246:22122http.tracker_server_port = 8888 建立py...原创 2020-07-21 14:04:49 · 980 阅读 · 0 评论 -
PyCharm新建运行入门Scrapy 项目
Scrapy 没有办法直接在PyCharm中建立,要在控制台里边建立,在PyCharm中编辑运行,Scrapy 安装和环境变量配置不再赘余。 1、新建Scrapy项目,使用命令:scrapy startproject spiderstest 2、打开PyCharm,File->open,然后选择项目: 3、编写我们...原创 2020-04-07 18:36:15 · 599 阅读 · 0 评论