互联网信息采集
文章平均质量分 78
LuWenHui_Leon_
ICZOOM项目组长,下属5人
主要负责:
1. 内部管理(团队管理,需求,技术培训)
2. 系统架构(分布式,低耦合,持续集成)
展开
-
HTML垃圾信息判断,参考贝叶斯。
原理:类似于,电话降噪(噪音处理)。将多余的杂音(垃圾内容)去除,尽可能过滤为原始内容。【核心】:贝叶斯过滤算法叶斯过滤算法是一种典型的基于统计的垃圾邮件过滤技术,这种理论的基础是通过对大量垃圾邮件的常见关键词进行分析后得出其分布的统计模型,并由此推算目标是垃圾邮件的概率,再根据所设阈值来判断是否接受邮件。如文章一共100行。贝叶斯算法:(spam*原创 2013-11-08 13:49:17 · 1059 阅读 · 0 评论 -
搜索引擎信息采集
【可搜索范围】1. 正常网页搜索数据:URL、标题,描述2. 百科(百度,360)数据:URL、标题,描述,作者,发布日期3. 微博数据:URL、标题,描述,作者,发布日期,微博类型(新浪、腾讯、163、搜狐),评论数,转发数4. 新闻数据:URL、标题,描述,发布日期,发布网站5. 论坛数据:URL、标题,描述,发布日期原创 2013-11-08 14:08:00 · 1359 阅读 · 0 评论 -
4种HTML结构化解析方法
1. dom解析方式2. 字符串首尾截取3. 正则表达式4. 通用型,分析能力有限,但能兼容大部分网站原创 2013-11-08 13:21:46 · 2582 阅读 · 0 评论