要用到的包可以用pycharm下载:
File->Default Settings->Default Project->Project Interpreter
选择python版本并点右边的加号安装想要的包
爬取http://www.weather.com.cn/weather/101190401.shtml天气情况,代码以及解释如下:
# coding :UTF-8
import requests # 用来抓取网页的html源代码
import csv # 将数据写入到csv文件中
import random # 取随机数
import time # 时间相关操作
import socket # 用于异常处理
import http.client # 用于异常处理
from bs4 import BeautifulSoup # 用来代替正则式取源码中相应标签中的内容
# urllib.request:另一种抓取网页的html源代码的方法,但是没requests方便
# 获取网页中的html
def get_content(url):
header = { # header是requests.get的一个参数,目的是模拟浏览器访问 header 可以使用chrome的开发者工具获得,具体方法如下: 打开chrome,按F12,选择network