Python爬虫--经验心得

Python新闻爬虫----图片问题
-------------------------------
存在图片属性可能不是@src    而是@#src1   对抓取的图片进行测试

已经出错的展示地址,想办法从库里拿到地址,重新抓取,覆盖掉有问题的。
**正则处理的时候尽可能做成通用匹配**
xpath ----抓取常规基础的
regex  -----正则处理复杂页面问题
---------------------------------------------

对于加密的js
可以通过复制js内容,再添加个js的加密方法-----通过html在页面运行看输出结果
对于实际操作
先获取js的列表页,拼出完整地址后-------对加密详情页进行解密,我们把页面加密的js获取到本地,把它的加密,改成return输出-----获取结果


对于列表页js+详情页js
----------单独处理还是可以的
无法再通用的规则下运用

--------------------------------------------

@classmethod-----对应函数不需要self参数 , 但第一个参数必须自身类是cls参数    可用来调用属性  方法 , 实例化对象等。

python支持多继承,但是不支持接口,zope.inteface是其三方的接口实现库,在twisted中有大量使用

注意:

python
适合:
   web网站和各种网络服务
   系统工具和脚本
   作为“胶水”把其他语言开发的模块包装起来方便使用

不适合:
   硬件代码
   移动开发
   游戏开发

对比其他语言

python  运行速度慢  但是代码量少

    

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值