2015年11月_cat_猫

12月 11月 04月 03月

转载爬虫入门讲解：基础理论篇

关于爬虫内容的分享，我会分成两篇，六个部分来分享，分别是：我们的目的是什么内容从何而来了解网络请求一些常见的限制方式尝试解决问题的思路效率问题的取舍一、我们的目的是什么一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值，内容一般分为两部分，非结构化的文本，或结构化的文本。 1. 关于非结构化的数据 1.1 HTML文本（包

2015-11-16 10:27:11 651

原创 Web文本去噪——基于DOM树的哈希值去噪法

不知从什么时候，自己居然走上了玩Java的道路。本以为做葡萄城杯是我最后一次用Java来写程序，现在看来只能说世事无常，我们永远不知道明天会发生什么，就像我无论如何也没想到一心想利用暑假时间好好看Linux C，最终却玩上Java一样。是的我没有写错，后者比起前者更让我感到吃惊。言归正传，项目需要，需要对爬虫抓取下来的网页进行去噪。广义上的Web去噪大致分为三类：一是去除重复的网页

2015-11-04 18:56:30 2784

java反编译工具

一个轻巧好用的java反编译工具，是查看java源文件的神器。

2015-06-23

jsoup 中文帮助文档 1. 解析和遍历一个html文档输入 2. 解析一个html字符串 3. 解析一个body片断 4. 根据一个url加载Document对象 5. 根据一个文件加载Document对象数据抽取 6. 使用dom方法来遍历一个Document对象 7. 使用选择器语法来查找元素 8. 从元素集合抽取属性、文本和html内容 9. URL处理 10. 程序示例：获取所有链接数据修改 11. 设置属性值 12. 设置元素的html内容 13. 设置元素的文本内容html清理 14. 消除不受信任的html (来防止xss攻击)

2013-12-06

Highcharts统计分析

Highcharts绘制表格，统计分析，线性图，饼状图，等例子。

2013-11-06

httpclient4源码

httpclient4源代码。

2013-11-06

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

mao1059568684的专栏

转载爬虫入门讲解：基础理论篇

原创 Web文本去噪——基于DOM树的哈希值去噪法

图片识别ocr

java反编译工具

jsoup中文帮助文档

Highcharts统计分析

httpclient4源码

空空如也

转载 爬虫入门讲解：基础理论篇

原创 Web文本去噪——基于DOM树的哈希值去噪法

图片识别ocr

java反编译工具

jsoup中文帮助文档

Highcharts统计分析

httpclient4源码

空空如也

转载爬虫入门讲解：基础理论篇