下面是使用时的注意事项:
1.需要自己设置使用代理
2.使用BeautifulSoap解析时, 尽量使用lxml格式, 否则容易造成内容丢失.
3.webEye只能解析p标签中的元素, 特殊网页需做特殊处理:
1>.自己实现提取body
2>.如果没有p标签, 可以采取在最外层加一个p标签
4.针对图片的处理:
1>.过滤小图片
2>.过滤特定源特定图片
5.提取后图片的保存:
1>.如果图片没有, 追加img标签到content前面
2>.如果图片链接有, 直接替换