- 博客(8)
- 收藏
- 关注
原创 scrapy xpath 区间定位
多字节,取区间字节//html/body/div[3]/div/ul/li[position()<41 and position()>22]/a/@href
2018-10-09 13:58:37 905
转载 es爬虫 关于elasticsearch_dsl.exceptions.IllegalOperation: Index object cannot have multiple types 报错
在学习bobby老师的一门《python分布式爬虫打造搜索引擎》课的时候需要用python连接es数据库,结果报错如下: elasticsearch_dsl.exceptions.IllegalOperation: Index object cannot have multiple types, doc already set, trying to assign article.这里是因为版本...
2018-09-19 14:19:23 536
原创 关于 odoo KeyError: 'company_id' 报错
当出现:KeyError: ‘xxxxxx‘这样的错误,可以肯定依赖出问题了,一般是你引用某个字段,但没有定义,又没有指定依赖的模块,最后找不到对应字段解决方法:开发工具,把 xxxxxx 去搜索,看一下在哪个模块中 如我要扩充 sale.order中的 picking_ids搜索 picking_ids,得到在sale_stock 这个模块中定义,这时,就要在 __openerp_...
2018-08-22 10:06:55 2516
原创 odoo 学习
_parent_name = "location_id" _parent_store = True _parent_order = 'name'
2018-08-21 11:37:57 290
原创 爬虫 requests库的cookie 和session
1.request库 的cookie 和正常理解的cookie没有区别 而且用法也是相同的2.session 和正常理解的session完全是两个概念,这个session并不是存在服务器,可以理解成存在在客户端,可以发送get和post请求,模拟浏览器进行登录,就是起到cookie的作用,和cookie登录一样,唯一不同就是保持会话,这个session中可以保持cookie的状态。
2017-11-10 10:42:58 524
原创 构造 分布式爬虫 四步
简单爬虫修改成分布式爬虫步获取动态允许的域1.接收参数2.将参数中domain字符串弹出 如果没有弹出空 即‘ ’3.将domain变量的字符串切割,用filter过滤,如果有none,0,' '等空的东西直接过滤 得到结果为真是的表内的值,自己的写的时候list转换一下,这里得到的是一个列表4.用super方法调用父类的方法
2017-11-06 11:52:48 213
原创 爬虫 斗鱼 直播
斗鱼怎么样判断获取动态页面1.进入主页 第一页和第二页url是一样的,并没有改变2.进入第一页的network可以找到想要的数据 ,但是从第一页进入第二页response 里面是找到的是一个ajax 返回的是html页面 并不是一个json数据 ,第二页没有找到和第一页一样的数据说明是动态请求。
2017-11-06 11:43:30 404
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人