weixin_39492016-CSDN博客

原创 scrapy xpath 区间定位

多字节，取区间字节//html/body/div[3]/div/ul/li[position()<41 and position()>22]/a/@href

2018-10-09 13:58:37 905

转载 es爬虫关于elasticsearch_dsl.exceptions.IllegalOperation: Index object cannot have multiple types 报错

在学习bobby老师的一门《python分布式爬虫打造搜索引擎》课的时候需要用python连接es数据库，结果报错如下： elasticsearch_dsl.exceptions.IllegalOperation: Index object cannot have multiple types, doc already set, trying to assign article.这里是因为版本...

2018-09-19 14:19:23 536

原创关于 odoo KeyError: 'company_id' 报错

当出现：KeyError: ‘xxxxxx‘这样的错误，可以肯定依赖出问题了，一般是你引用某个字段，但没有定义，又没有指定依赖的模块，最后找不到对应字段解决方法：开发工具，把 xxxxxx 去搜索，看一下在哪个模块中如我要扩充 sale.order中的 picking_ids搜索 picking_ids，得到在sale_stock 这个模块中定义，这时，就要在 __openerp_...

2018-08-22 10:06:55 2516

原创 odoo 学习

_parent_name = "location_id" _parent_store = True _parent_order = 'name'

2018-08-21 11:37:57 290

转载爬虫爬取不到数据原因总结

javascript:void(0);

2017-11-10 11:20:55 31118 1

原创爬虫 requests库的cookie 和session

1.request库的cookie 和正常理解的cookie没有区别而且用法也是相同的2.session 和正常理解的session完全是两个概念，这个session并不是存在服务器，可以理解成存在在客户端，可以发送get和post请求，模拟浏览器进行登录，就是起到cookie的作用，和cookie登录一样，唯一不同就是保持会话，这个session中可以保持cookie的状态。

2017-11-10 10:42:58 524

原创构造分布式爬虫四步

简单爬虫修改成分布式爬虫步获取动态允许的域1.接收参数2.将参数中domain字符串弹出如果没有弹出空即‘ ’3.将domain变量的字符串切割，用filter过滤，如果有none,0,' '等空的东西直接过滤得到结果为真是的表内的值，自己的写的时候list转换一下，这里得到的是一个列表4.用super方法调用父类的方法

2017-11-06 11:52:48 213

原创爬虫斗鱼直播

斗鱼怎么样判断获取动态页面1.进入主页第一页和第二页url是一样的，并没有改变2.进入第一页的network可以找到想要的数据，但是从第一页进入第二页response 里面是找到的是一个ajax 返回的是html页面并不是一个json数据，第二页没有找到和第一页一样的数据说明是动态请求。

2017-11-06 11:43:30 404

weixin_39492016的博客