自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 scrapy xpath 区间定位

多字节,取区间字节//html/body/div[3]/div/ul/li[position()<41 and position()>22]/a/@href

2018-10-09 13:58:37 905

转载 es爬虫 关于elasticsearch_dsl.exceptions.IllegalOperation: Index object cannot have multiple types 报错

在学习bobby老师的一门《python分布式爬虫打造搜索引擎》课的时候需要用python连接es数据库,结果报错如下: elasticsearch_dsl.exceptions.IllegalOperation: Index object cannot have multiple types, doc already set, trying to assign article.这里是因为版本...

2018-09-19 14:19:23 536

原创 关于 odoo KeyError: 'company_id' 报错

当出现:KeyError: ‘xxxxxx‘这样的错误,可以肯定依赖出问题了,一般是你引用某个字段,但没有定义,又没有指定依赖的模块,最后找不到对应字段解决方法:开发工具,把 xxxxxx 去搜索,看一下在哪个模块中 如我要扩充 sale.order中的 picking_ids搜索 picking_ids,得到在sale_stock 这个模块中定义,这时,就要在 __openerp_...

2018-08-22 10:06:55 2516

原创 odoo 学习

_parent_name = "location_id"   _parent_store = True   _parent_order = 'name' 

2018-08-21 11:37:57 290

转载 爬虫 爬取不到数据原因总结

javascript:void(0);

2017-11-10 11:20:55 31118 1

原创 爬虫 requests库的cookie 和session

1.request库 的cookie  和正常理解的cookie没有区别  而且用法也是相同的2.session  和正常理解的session完全是两个概念,这个session并不是存在服务器,可以理解成存在在客户端,可以发送get和post请求,模拟浏览器进行登录,就是起到cookie的作用,和cookie登录一样,唯一不同就是保持会话,这个session中可以保持cookie的状态。

2017-11-10 10:42:58 524

原创 构造 分布式爬虫 四步

简单爬虫修改成分布式爬虫步获取动态允许的域1.接收参数2.将参数中domain字符串弹出 如果没有弹出空 即‘ ’3.将domain变量的字符串切割,用filter过滤,如果有none,0,' '等空的东西直接过滤 得到结果为真是的表内的值,自己的写的时候list转换一下,这里得到的是一个列表4.用super方法调用父类的方法

2017-11-06 11:52:48 213

原创 爬虫 斗鱼 直播

斗鱼怎么样判断获取动态页面1.进入主页 第一页和第二页url是一样的,并没有改变2.进入第一页的network可以找到想要的数据 ,但是从第一页进入第二页response 里面是找到的是一个ajax 返回的是html页面 并不是一个json数据 ,第二页没有找到和第一页一样的数据说明是动态请求。

2017-11-06 11:43:30 404

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除