https://spidertools.cn/#/ 爬虫工具库 各种格式化 参数提取 加密解密 爬虫分享
https://www.json.cn/ json解析 json处理
https://base64.us/ Base64编码解码
https://alisen39.com/ httpRaw 转 Python
http://httpbin.org/get 查看本地请求信息
http://tool.chinaz.com/tools/unicode.aspx 站长工具编码解码合集
http://web.chacuo.net/netproxycheck 代理服务器连接测试工具
http://tool.yuanrenxue.com 爬虫分析工具 爬虫比赛题目
GitHub - lixi5338619/lxpy: Web crawler and data processing toolkit ! 时间处理 复制的Header转化为字典 随机UA生成 html去除标签 jsonp转json xpath正则匹配 以及一些不常用加密的处理
智能解析项库:适用于舆情分析等行业需要采集大量网站 原理:1.基于文档提取 2.基于DOM节点提取 3,基于视觉信息提取 案例:
Newspaper 基于DOM节点的正文内容提取
GeneralNewsExtractor 基于网页文本密度与符号密度对网页正文进行提取