环境准备:
事先安装好,pycharm
打开File——>Settings——>Projext——>Project Interpriter
点击加号(图中红圈的地方)
点击红圈中的按钮
选中第一条,点击铅笔,将原来的链接替换为(这里已经替换过了):
https://pypi.tuna.tsinghua.edu.cn/simple/
点击OK后,输入requests-html然后回车
选中requests-html后点击Install Package
等待安装成功,关闭
通过解析网页源代码
实例内容:
从某博主的所有文章爬取想要的内容。
实例背景:
从(https://me.csdn.net/weixin_44286745)博主的所有文章获取各文章的标题,时间,阅读量。
导入requests_html中HTMLSession方法,并创建其对象
from requests_html import HTMLSession
session = HTMLSession()
使用get请求获取要爬的网站,得到该网页的源代码。
html = session.get("https://me.csdn.net/w