目标
利用PYTHON爬取如下图中所有回答的内容,并且制作词云图。
用到的库
import requests
# import json
from PIL import Image
from pyquery import PyQuery as pq
from requests import RequestException
import csv
from wordcloud import WordCloud, STOPWORDS
import numpy as np
# import matplotlib.pyplot as plt
import jieba
import re
需要确保已经安装好以上几个常用的库。具体的操作直接 pip install xxx 就好了,推荐使用国内源安装,具体的请看我的另一篇博客https://blog.csdn.net/qq_41655933/article/details/89637657
话不多说,开始操作!
爬虫阶段
1. 获取网页源码
首先我们要爬取的网址是https://www.douban.com/group/topic/82916031/?start=0
点看第二面 https://www.douban.com/group/topic/82916031/?start=100
发现start变为了100。这样以来,爬取就有规律了。只要每次爬取一个页面,使start值加100就ok了。
于是写出以下代码。
def get_one(page):
"""
爬取一页
:param page: start数
:return: html源码
"""
try:
headers = {
# 'Cookie': 'bid=kCNfNn6nvxA; __utmz=30149280.1564815097.1.1.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __yadk_uid=CvRkxvch6yW4IwpqONlyGzPCB1GznXLV; douban-fav-remind=1; ap_v=0,6.0; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1568964489%2C%22https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3D2p9zSFnHJuYwVjtaUY6Smc_R8lvOe0b5EatQr75z