本节课学习搜狗新闻网的重点新闻挖掘
先看下挖掘的效果:
思路:
1、地址-地址中的目标内容
2、取关键内容使用正则表达式- (.*?)
3、定义目标,爬取哪些公司内容
4、for循环url,然后拼接内容
详细代码如下:
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2020/8/1 18:24
# @Author : Jianhua Wang
# @Site :
# @File : 搜狗新闻数据挖掘.py
# @Software: PyCharm
import requests
import re
#定义浏览器头信息
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
#搜狗函数
def sogou(company):
"""
:param company:多个公司
:return:
"""
#爬取地址 给定目标公司变量
url = 'https://news.sogou.com/news?mode=1&sort=0&fixrank=1&query=' + company