新闻网站爬虫设计

新闻爬取

目标:爬取线上各大网站的新闻入库并进行后处理获取需要的信息。

新闻源和新闻属性

  1. 新闻源属性
    1.1 源名称
    特定源名称,描述该源,比如新浪新闻。
    1.2 源唯一标识
    特定源ID:primary key
    1.3 源URL
    新闻源网站:如news.163.com
    1.4 源抓取的新闻分类
    比如该源下为科技类新闻、体育新闻等。
    1.5 源站点类型
    用于确定爬取方法,可包括以下类别:JSON站点、XML站点、MOBILE站点、PC站点
    1.6 源抓取权重
    确定爬取的频率
    1.7 源下url白名单
    源下URL白名单对该源下抓取的新闻url进行过滤
    1.8 源下url黑名单
    源下URL黑名单对该源下抓取的新闻url进行过滤
    1.9 自定义属性(json)
  2. 新闻源输出数据:新闻属性
    2.1 新闻ID标识一条新闻
    2.2 具体新闻的URL
    2.3 重定向后的URL
    2.4 新闻标题
    2.5 新闻描述、概述
    2.6 新闻发布时间
    2.7 新闻图片连接URL
    2.8 抓取时间
    2.9 url page内容
    2.10 新闻来自的新闻源ID
    2.11 自定义属性(json)

根据以上建立新闻源数据库和新闻数据库

MYSQL DATABASE INFO
MYSQL_IP='127.0.0.1';
MYSQL_PORT='3306';
MYSQL_NAME='spider';
MYSQL_PASSWORD='spider';
MYSQL_DATABASE='news_data';

表设计:

- MySQL dump 10.13  Distrib 5.7.13, for osx10.11 (x86_64)
--
-- Host: localhost    Database: news_data
-- ------------------------------------------------------
-- Server version   5.7.13

/*!40101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */;
/*!40101 SET @OLD_CHARACTER_SET_RESULTS=@@CHARACTER_SET_RESULTS */;
/*!40101 SET @OLD_COLLATION_CONNECTION=@@COLLATION_CONNECTION */;
/*!40101 SET NAMES utf8 */;
/*!40103 SET @OLD_TIME_ZONE=@@TIME_ZONE */;
/*!40103 SET TIME_ZONE='+00:00' */;
/*!40014 SET @OLD_UNIQUE_CHECKS=@@UNIQUE_CHECKS, UNIQUE_CHECKS=0 */;
/*!40014 SET @OLD_FOREIGN_KEY_CHECKS=@@FOREIGN_KEY_CHECKS, FOREIGN_KEY_CHECKS=0 */;
/*!40101 SET @OLD_SQL_MODE=@@SQL_MODE, SQL_MODE='NO_AUTO_VALUE_ON_ZERO' */;
/*!40111 SET @OLD_SQL_NOTES=@@SQL_NOTES, SQL_NOTES=0 */;

--
-- Current Database: `news_data`
--

CREATE DATABASE /*!32312 IF NOT EXISTS*/ `news_data` /*!40100 DEFAULT CHARACTER SET utf8 */;

USE `news_data`;

--
-- Table structure for table `news_category`
--

DROP TABLE IF EXISTS `news_category`;
/*!40101 SET @saved_cs_client     = @@character_set_client */;
/*!40101 SET character_set_client = utf8 */;
CREATE TABLE `news_category` (
  `category_id` tinyint(2) NOT NULL AUTO_INCREMENT COMMENT '新闻内容类型id',
  `ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后一次操作时间戳',
  `category` varchar(256) NOT NULL COMMENT '新闻内容类型',
  PRIMARY KEY (`category_id`),
  UNIQUE KEY `idx_category` (`category`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='新闻内容类型表';
/*!40101 SET character_set_client = @saved_cs_client */;

--
-- Table structure for table `news_list`
--

DROP TABLE IF EXISTS `news_list`;
/*!40101 SET @saved_cs_client     = @@character_set_client */;
/*!40101 SET character_set_client = utf8 */;
CREATE TABLE `news_list` (
  `news_id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '新闻id',
  `ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后一次操作时间戳',
  `url` varchar(1024) NOT NULL COMMENT '新闻地址',
  `redirect_url` varchar(1024) NOT NULL DEFAULT '' COMMENT '新闻重定向后地址',
  `source_id` bigint(20) NOT NULL DEFAULT '0' COMMENT '来自新闻源id',
  `spider_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '新闻抓取时间',
  `title` varchar(1024) NOT NULL DEFAULT '' COMMENT '新闻标题',
  `time` varchar(256) NOT NULL DEFAULT '' COMMENT '新闻发布时间',
  `editor` varchar(256) NOT NULL DEFAULT '' COMMENT '新闻作者',
  `description` text NOT NULL COMMENT '新闻描述',
  `page` longtext NOT NULL COMMENT '新闻url内容',
  `property` text NOT NULL COMMENT '新闻自定义属性',
  PRIMARY KEY (`news_id`),
  UNIQUE KEY `idx_url` (`url`) USING BTREE,
  KEY `fk_source_id` (`source_id`),
  CONSTRAINT `news_list_ibfk_1` FOREIGN KEY (`source_id`) REFERENCES `news_source` (`source_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='新闻数据表';
/*!40101 SET character_set_client = @saved_cs_client */;

--
-- Table structure for table `news_source`
--

DROP TABLE IF EXISTS `news_source`;
/*!40101 SET @saved_cs_client     = @@character_set_client */;
/*!40101 SET character_set_client = utf8 */;
CREATE TABLE `news_source` (
  `source_id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '新闻源id',
  `ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后一次操作时间戳',
  `name_id` tinyint(20) NOT NULL COMMENT '新闻源名称id',
  `sitetype_id` tinyint(20) NOT NULL COMMENT '新闻源名称id',
  `category_id` tinyint(20) NOT NULL COMMENT '新闻内容类型id',
  `weight` tinyint(2) unsigned NOT NULL COMMENT '新闻抓取权重',
  `url` varchar(1024) NOT NULL COMMENT '新闻源地址',
  `white_url` varchar(1024) NOT NULL DEFAULT '' COMMENT '新闻源新闻URL白名单地址',
  `black_url` varchar(1024) NOT NULL DEFAULT '' COMMENT '新闻源新闻URL黑名单地址',
  `property` text NOT NULL COMMENT '新闻源自定义属性',
  PRIMARY KEY (`source_id`),
  UNIQUE KEY `idx_url` (`url`) USING BTREE,
  KEY `fk_sitetype_id` (`sitetype_id`),
  KEY `fk_category_id` (`category_id`),
  KEY `fk_name_id` (`name_id`),
  CONSTRAINT `news_source_ibfk_1` FOREIGN KEY (`sitetype_id`) REFERENCES `source_sitetype` (`sitetype_id`),
  CONSTRAINT `news_source_ibfk_2` FOREIGN KEY (`category_id`) REFERENCES `news_category` (`category_id`),
  CONSTRAINT `news_source_ibfk_3` FOREIGN KEY (`name_id`) REFERENCES `source_name` (`name_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='新闻源数据表';
/*!40101 SET character_set_client = @saved_cs_client */;

--
-- Table structure for table `source_name`
--

DROP TABLE IF EXISTS `source_name`;
/*!40101 SET @saved_cs_client     = @@character_set_client */;
/*!40101 SET character_set_client = utf8 */;
CREATE TABLE `source_name` (
  `name_id` tinyint(2) NOT NULL AUTO_INCREMENT COMMENT '新闻源名称id',
  `ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后一次操作时间戳',
  `name` varchar(256) NOT NULL DEFAULT '' COMMENT '新闻源名称',
  PRIMARY KEY (`name_id`),
  UNIQUE KEY `idx_name` (`name`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='新闻源名称表';
/*!40101 SET character_set_client = @saved_cs_client */;

--
-- Table structure for table `source_sitetype`
--

DROP TABLE IF EXISTS `source_sitetype`;
/*!40101 SET @saved_cs_client     = @@character_set_client */;
/*!40101 SET character_set_client = utf8 */;
CREATE TABLE `source_sitetype` (
  `sitetype_id` tinyint(2) NOT NULL AUTO_INCREMENT COMMENT '新闻源网站类型id',
  `ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后一次操作时间戳',
  `sitetype` varchar(256) NOT NULL COMMENT '新闻源网站类型',
  PRIMARY KEY (`sitetype_id`),
  UNIQUE KEY `idx_sitetype` (`sitetype`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='新闻源网站类型表';
/*!40101 SET character_set_client = @saved_cs_client */;
/*!40103 SET TIME_ZONE=@OLD_TIME_ZONE */;

/*!40101 SET SQL_MODE=@OLD_SQL_MODE */;
/*!40014 SET FOREIGN_KEY_CHECKS=@OLD_FOREIGN_KEY_CHECKS */;
/*!40014 SET UNIQUE_CHECKS=@OLD_UNIQUE_CHECKS */;
/*!40101 SET CHARACTER_SET_CLIENT=@OLD_CHARACTER_SET_CLIENT */;
/*!40101 SET CHARACTER_SET_RESULTS=@OLD_CHARACTER_SET_RESULTS */;
/*!40101 SET COLLATION_CONNECTION=@OLD_COLLATION_CONNECTION */;
/*!40111 SET SQL_NOTES=@OLD_SQL_NOTES */;

-- Dump completed on 2016-12-03  1:16:49

不同源站点类型下解析方法

SOURCE_TYPE: XML

XML设定通用的解析规则,文件配置;
XML设定针对部分站点的解析规则,文件配置;

SOURCE_TYPE: JSON

JSON设定通用的解析规则,文件配置;
JSON设定针对部分站点的解析规则,文件配置;

SOURCE_TYPE: MOBILE PC

设定通用的解析规则,文件配置;
设定针对部分站点的解析规则,文件配置;
方法:html使用XPATH解析

动态更新

由于新闻网站更新频繁,解析规则必须动态调整,避免新闻网站格式更变引起解析错误。

爬取问题

  1. 考虑新闻网页重复爬取问题,对已经爬取过的新闻网页不再爬取;
  2. 考虑死链接问题,对部分不可访问的新闻网页进行过滤(404);
  3. 考虑编码问题,不同网页编码不同,需自适应解析;
  4. 考虑新闻网页更新问题,有些新闻可能会更新,需要进行判断处理;
  5. 针对大门户网站新闻进行新闻网页提取优化;
  6. 组图和翻页的新闻网页处理;

内容优化

  1. 相似新闻过滤;
  2. 低质新闻过滤;
  3. 新闻分类优化;
  4. 视频和图片提取;
  5. 新闻内容提取;(过滤内容)
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值