- 博客(3)
- 收藏
- 关注
原创 网页去噪,网页正文文本提取方案二(goose)
goose项目介绍:The aim of the software is is to take any news article or article type web page and not only extract what is the main body of the article but also all meta data and most probable image can
2013-10-11 23:12:44 3765
原创 网页去噪,网页正文文本提取方案一(readability)
提起网页正文提取和网页内容去噪,最有名的就是readability它了。现在有多种版本java,js,ios,android都有了。介绍:In few words,Given a html document, it pulls out the main body text and cleans it up.代码实例:采用的是python-readability 项目git地址fro
2013-10-11 22:54:22 5354 3
原创 linux 下纯web服务器iptables 规则
#!/bin/shiptables -Fiptables -Xiptables -P INPUT DROPiptables -P OUTPUT ACCEPTiptables -P FORWARD DROPiptables -A INPUT -s 127.0.0.1 -d 127.0.0.1 -j ACCEPTiptables -A INPUT -p udp -m udp --sport 53 -j
2013-08-07 22:00:06 637
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人