一、爬虫的定向爬取技术: 根据设置的主题,对要爬取的网址或者网页中的内容进行筛选。
二、爬虫的信息筛选方法
(1) 通过正则表达式筛选
(2)通过XPath表达式筛选 (Scrapy经常使用)
(3)通过xslt 筛选
三、定向爬虫实战爬取评论内容
import urllib.request
import http.cookiejar
import re
#视频编号
vid="1472528692"
#刚开始时候的评论ID
comid="617340
一、爬虫的定向爬取技术: 根据设置的主题,对要爬取的网址或者网页中的内容进行筛选。
二、爬虫的信息筛选方法
(1) 通过正则表达式筛选
(2)通过XPath表达式筛选 (Scrapy经常使用)
(3)通过xslt 筛选
三、定向爬虫实战爬取评论内容
import urllib.request
import http.cookiejar
import re
#视频编号
vid="1472528692"
#刚开始时候的评论ID
comid="617340