MollyMmmmm

愿你比别人更不怕一个人独处;愿日后谈起时,你会被自己感动.

提取网页内容-Python

下面是使用时的注意事项:

1.需要自己设置使用代理

2.使用BeautifulSoap解析时, 尽量使用lxml格式, 否则容易造成内容丢失.

3.webEye只能解析p标签中的元素, 特殊网页需做特殊处理:
1>.自己实现提取body
2>.如果没有p标签, 可以采取在最外层加一个p标签

4.针对图片的处理:
1>.过滤小图片
2>.过滤特定源特定图片

5.提取后图片的保存:
1>.如果图片没有, 追加img标签到content前面
2>.如果图片链接有, 直接替换

github地址:https://github.com/MollyMmm/tidy_page

阅读更多
文章标签: Python 提取网页
个人分类: 服务端开发笔记
上一篇crunchbase抓取分析-获取cookie
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭