新闻爬取
目标:爬取线上各大网站的新闻入库并进行后处理获取需要的信息。
新闻源和新闻属性
- 新闻源属性
1.1 源名称
特定源名称,描述该源,比如新浪新闻。
1.2 源唯一标识
特定源ID:primary key
1.3 源URL
新闻源网站:如news.163.com
1.4 源抓取的新闻分类
比如该源下为科技类新闻、体育新闻等。
1.5 源站点类型
用于确定爬取方法,可包括以下类别:JSON站点、XML站点、MOBILE站点、PC站点
1.6 源抓取权重
确定爬取的频率
1.7 源下url白名单
源下URL白名单对该源下抓取的新闻url进行过滤
1.8 源下url黑名单
源下URL黑名单对该源下抓取的新闻url进行过滤
1.9 自定义属性(json) - 新闻源输出数据:新闻属性
2.1 新闻ID标识一条新闻
2.2 具体新闻的URL
2.3 重定向后的URL
2.4 新闻标题
2.5 新闻描述、概述
2.6 新闻发布时间
2.7 新闻图片连接URL
2.8 抓取时间
2.9 url page内容
2.10 新闻来自的新闻源ID
2.11 自定义属性(json)
根据以上建立新闻源数据库和新闻数据库
MYSQL DATABASE INFO
MYSQL_IP='127.0.0.1';
MYSQL_PORT='3306';
MYSQL_NAME='spider';
MYSQL_PASSWORD='spider';
MYSQL_DATABASE='news_data';
表设计:
- MySQL dump 10.13 Distrib 5.7.13, for osx10.11 (x86_64)
--
-- Host: localhost Database: news_data
-- ------------------------------------------------------
-- Server version 5.7.13
/*!40101 SET @OLD_CHARACTER_SET_CLIENT=@@CHARACTER_SET_CLIENT */;
/*!40101 SET @OLD_CHARACTER_SET_RESULTS=@@CHARACTER_SET_RESULTS */;
/*!40101 SET @OLD_COLLATION_CONNECTION=@@COLLATION_CONNECTION */;
/*!40101 SET NAMES utf8 */;
/*!40103 SET @OLD_TIME_ZONE=@@TIME_ZONE */;
/*!40103 SET TIME_ZONE='+00:00' */;
/*!40014 SET @OLD_UNIQUE_CHECKS=@@UNIQUE_CHECKS, UNIQUE_CHECKS=0 */;
/*!40014 SET @OLD_FOREIGN_KEY_CHECKS=@@FOREIGN_KEY_CHECKS, FOREIGN_KEY_CHECKS=0 */;
/*!40101 SET @OLD_SQL_MODE=@@SQL_MODE, SQL_MODE='NO_AUTO_VALUE_ON_ZERO' */;
/*!40111 SET @OLD_SQL_NOTES=@@SQL_NOTES, SQL_NOTES=0 */;
--
-- Current Database: `news_data`
--
CREATE DATABASE /*!32312 IF NOT EXISTS*/ `news_data` /*!40100 DEFAULT CHARACTER SET utf8 */;
USE `news_data`;
--
-- Table structure for table `news_category`
--
DROP TABLE IF EXISTS `news_category`;
/*!40101 SET @saved_cs_client = @@character_set_client */;
/*!40101 SET character_set_client = utf8 */;
CREATE TABLE `news_category` (
`category_id` tinyint(2) NOT NULL AUTO_INCREMENT COMMENT '新闻内容类型id',
`ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后一次操作时间戳',
`category` varchar(256) NOT NULL COMMENT '新闻内容类型',
PRIMARY KEY (`category_id`),
UNIQUE KEY `idx_category` (`category`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='新闻内容类型表';
/*!40101 SET character_set_client = @saved_cs_client */;
--
-- Table structure for table `news_list`
--
DROP TABLE IF EXISTS `news_list`;
/*!40101 SET @saved_cs_client = @@character_set_client */;
/*!40101 SET character_set_client = utf8 */;
CREATE TABLE `news_list` (
`news_id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '新闻id',
`ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后一次操作时间戳',
`url` varchar(1024) NOT NULL COMMENT '新闻地址',
`redirect_url` varchar(1024) NOT NULL DEFAULT '' COMMENT '新闻重定向后地址',
`source_id` bigint(20) NOT NULL DEFAULT '0' COMMENT '来自新闻源id',
`spider_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '新闻抓取时间',
`title` varchar(1024) NOT NULL DEFAULT '' COMMENT '新闻标题',
`time` varchar(256) NOT NULL DEFAULT '' COMMENT '新闻发布时间',
`editor` varchar(256) NOT NULL DEFAULT '' COMMENT '新闻作者',
`description` text NOT NULL COMMENT '新闻描述',
`page` longtext NOT NULL COMMENT '新闻url内容',
`property` text NOT NULL COMMENT '新闻自定义属性',
PRIMARY KEY (`news_id`),
UNIQUE KEY `idx_url` (`url`) USING BTREE,
KEY `fk_source_id` (`source_id`),
CONSTRAINT `news_list_ibfk_1` FOREIGN KEY (`source_id`) REFERENCES `news_source` (`source_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='新闻数据表';
/*!40101 SET character_set_client = @saved_cs_client */;
--
-- Table structure for table `news_source`
--
DROP TABLE IF EXISTS `news_source`;
/*!40101 SET @saved_cs_client = @@character_set_client */;
/*!40101 SET character_set_client = utf8 */;
CREATE TABLE `news_source` (
`source_id` bigint(20) NOT NULL AUTO_INCREMENT COMMENT '新闻源id',
`ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后一次操作时间戳',
`name_id` tinyint(20) NOT NULL COMMENT '新闻源名称id',
`sitetype_id` tinyint(20) NOT NULL COMMENT '新闻源名称id',
`category_id` tinyint(20) NOT NULL COMMENT '新闻内容类型id',
`weight` tinyint(2) unsigned NOT NULL COMMENT '新闻抓取权重',
`url` varchar(1024) NOT NULL COMMENT '新闻源地址',
`white_url` varchar(1024) NOT NULL DEFAULT '' COMMENT '新闻源新闻URL白名单地址',
`black_url` varchar(1024) NOT NULL DEFAULT '' COMMENT '新闻源新闻URL黑名单地址',
`property` text NOT NULL COMMENT '新闻源自定义属性',
PRIMARY KEY (`source_id`),
UNIQUE KEY `idx_url` (`url`) USING BTREE,
KEY `fk_sitetype_id` (`sitetype_id`),
KEY `fk_category_id` (`category_id`),
KEY `fk_name_id` (`name_id`),
CONSTRAINT `news_source_ibfk_1` FOREIGN KEY (`sitetype_id`) REFERENCES `source_sitetype` (`sitetype_id`),
CONSTRAINT `news_source_ibfk_2` FOREIGN KEY (`category_id`) REFERENCES `news_category` (`category_id`),
CONSTRAINT `news_source_ibfk_3` FOREIGN KEY (`name_id`) REFERENCES `source_name` (`name_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='新闻源数据表';
/*!40101 SET character_set_client = @saved_cs_client */;
--
-- Table structure for table `source_name`
--
DROP TABLE IF EXISTS `source_name`;
/*!40101 SET @saved_cs_client = @@character_set_client */;
/*!40101 SET character_set_client = utf8 */;
CREATE TABLE `source_name` (
`name_id` tinyint(2) NOT NULL AUTO_INCREMENT COMMENT '新闻源名称id',
`ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后一次操作时间戳',
`name` varchar(256) NOT NULL DEFAULT '' COMMENT '新闻源名称',
PRIMARY KEY (`name_id`),
UNIQUE KEY `idx_name` (`name`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='新闻源名称表';
/*!40101 SET character_set_client = @saved_cs_client */;
--
-- Table structure for table `source_sitetype`
--
DROP TABLE IF EXISTS `source_sitetype`;
/*!40101 SET @saved_cs_client = @@character_set_client */;
/*!40101 SET character_set_client = utf8 */;
CREATE TABLE `source_sitetype` (
`sitetype_id` tinyint(2) NOT NULL AUTO_INCREMENT COMMENT '新闻源网站类型id',
`ts` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '最后一次操作时间戳',
`sitetype` varchar(256) NOT NULL COMMENT '新闻源网站类型',
PRIMARY KEY (`sitetype_id`),
UNIQUE KEY `idx_sitetype` (`sitetype`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='新闻源网站类型表';
/*!40101 SET character_set_client = @saved_cs_client */;
/*!40103 SET TIME_ZONE=@OLD_TIME_ZONE */;
/*!40101 SET SQL_MODE=@OLD_SQL_MODE */;
/*!40014 SET FOREIGN_KEY_CHECKS=@OLD_FOREIGN_KEY_CHECKS */;
/*!40014 SET UNIQUE_CHECKS=@OLD_UNIQUE_CHECKS */;
/*!40101 SET CHARACTER_SET_CLIENT=@OLD_CHARACTER_SET_CLIENT */;
/*!40101 SET CHARACTER_SET_RESULTS=@OLD_CHARACTER_SET_RESULTS */;
/*!40101 SET COLLATION_CONNECTION=@OLD_COLLATION_CONNECTION */;
/*!40111 SET SQL_NOTES=@OLD_SQL_NOTES */;
-- Dump completed on 2016-12-03 1:16:49
不同源站点类型下解析方法
SOURCE_TYPE: XML
XML设定通用的解析规则,文件配置;
XML设定针对部分站点的解析规则,文件配置;
SOURCE_TYPE: JSON
JSON设定通用的解析规则,文件配置;
JSON设定针对部分站点的解析规则,文件配置;
SOURCE_TYPE: MOBILE PC
设定通用的解析规则,文件配置;
设定针对部分站点的解析规则,文件配置;
方法:html使用XPATH解析
动态更新
由于新闻网站更新频繁,解析规则必须动态调整,避免新闻网站格式更变引起解析错误。
爬取问题
- 考虑新闻网页重复爬取问题,对已经爬取过的新闻网页不再爬取;
- 考虑死链接问题,对部分不可访问的新闻网页进行过滤(404);
- 考虑编码问题,不同网页编码不同,需自适应解析;
- 考虑新闻网页更新问题,有些新闻可能会更新,需要进行判断处理;
- 针对大门户网站新闻进行新闻网页提取优化;
- 组图和翻页的新闻网页处理;
内容优化
- 相似新闻过滤;
- 低质新闻过滤;
- 新闻分类优化;
- 视频和图片提取;
- 新闻内容提取;(过滤内容)