Python新闻爬虫----图片问题
-------------------------------
存在图片属性可能不是@src 而是@#src1 对抓取的图片进行测试
已经出错的展示地址,想办法从库里拿到地址,重新抓取,覆盖掉有问题的。
**正则处理的时候尽可能做成通用匹配**
xpath ----抓取常规基础的
regex -----正则处理复杂页面问题
---------------------------------------------
对于加密的js
可以通过复制js内容,再添加个js的加密方法-----通过html在页面运行看输出结果
对于实际操作
先获取js的列表页,拼出完整地址后-------对加密详情页进行解密,我们把页面加密的js获取到本地,把它的加密,改成return输出-----获取结果
对于列表页js+详情页js
----------单独处理还是可以的
无法再通用的规则下运用
--------------------------------------------
@classmethod-----对应函数不需要self参数 , 但第一个参数必须自身类是cls参数 可用来调用属性 方法 , 实例化对象等。
python支持多继承,但是不支持接口,zope.inteface是其三方的接口实现库,在twisted中有大量使用
注意:
python
适合:
web网站和各种网络服务
系统工具和脚本
作为“胶水”把其他语言开发的模块包装起来方便使用
不适合:
硬件代码
移动开发
游戏开发
对比其他语言
python 运行速度慢 但是代码量少