-1-实现人民日报要闻的抓取
说明文档:
使用包 : lxml,requests,urllib2
起始url :人民日报主页
爬取目标 :人民日报要闻
- 要闻链接
- 要闻标题
- 要闻时间
- 要闻来源
- 要闻内容
输出格式: HTML表格文件
思路 : 首先收集要爬取页面的所有链接,之后逐个进行爬取
实现代码:
#-*-coding:utf8-*-
#这段代码写得不是很好,许多地方都有要改善的地方,大神勿喷^-^
import requests
import urllib2
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import HTMLParser
def htmls(url):
url = url.replace(" ", "")
request = urllib2.Request(url)
head = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
try:
response2 = urllib2.urlopen(request)
html = response2.read()
#html = unicode(html, "gb2312").encode("utf-8").decode('utf-8')
selector = etree.HTML(html)
return selector
except urllib2.HTTPError, e:
return